# PATENT ABSTRACTS OF JAPAN

(11)Publication number:

2002-342165

(43) Date of publication of application: 29.11.2002

(51)Int.Cl.

G06F 12/14

G06F 15/16

(21)Application number : 2002-079358

(71)Applicant : SONY COMPUTER

**ENTERTAINMENT INC** 

(22)Date of filing:

20.03.2002

(72)Inventor: SUZUOKI MASAKAZU

YAMAZAKI TAKESHI

(30)Priority

Priority number : 2001 816020

Priority date: 22.03.2001

Priority country: US

# (54) COMPUTER PROCESSING SYSTEM AND PROCESSING METHOD PERFORMED IN **COMPUTER**

## (57)Abstract:

PROBLEM TO BE SOLVED: To provide a computer architecture and programming model for high speed processing over broadband networks.

SOLUTION: The architecture employs a consistent modular structure, a common computing module and uniform software cells. The common computing module includes a control processor, a plurality of processing units, a plurality of local memories from which the processing units process programs, a direct memory access, controller and a shared main memory. A synchronized system and method for the coordinated reading and writing of data to and from the shared main memory by the processing units also are provided.



(19)日本国特許庁 (JP)

## (12) 公開特許公報(A)

(11)特許出願公開發号

特開2002-342165

(P2002-342165A)

(43)公開日 平成14年11月29日(2002.11.29)

| (51) Int.CL. |       | 織別記号 | FI   |       | ş    | ~73~}*(参考) |
|--------------|-------|------|------|-------|------|------------|
| G06F         | 12/14 | 310  | GOGF | 12/14 | 310J | 5B017      |
|              | 15/16 | 610  |      | 15/16 | 610F | 5B045      |
|              |       | 620  |      |       | 620B |            |
|              |       |      |      |       | 620G |            |

| (21)出願番号                             | 特顯2002-79358( P2002-79358)                     | (71) 出廢人 | 395015319<br>株式会社ソニー・コンピュータエンタテイ                         |
|--------------------------------------|------------------------------------------------|----------|----------------------------------------------------------|
| (22)出願日                              | 平成14年3月20日(2002.3.20)                          |          | ンメント 東京都路区赤坂7-1-1                                        |
| (31)優先機主張番号<br>(32)優先日<br>(33)優先権主張国 | 09/816, 020<br>平成13年3月22日(2001.3.22)<br>米国(US) | (72)発明者  | 鈴屋 雅一<br>東京都港区赤坂7丁目1巻1号 株式会社<br>ソニー・コンピュータエンタテインメント<br>内 |
|                                      |                                                | (74)代理人  | 100099324<br>弁理士 鈴木 正剛 (外2名)                             |
|                                      |                                                |          | 最終頁征統                                                    |

#### (54) 【発明の名称】 コンピュータ処理システム及びコンピュータで実行される処理方法

#### (57)【要約】

【課題】 広帯域ネットワークを介する高速処理用コン ビュータ・アーキテクチャとプログラミング・モデルが 提供される。

【解決手段】 上記アーキテクチャは、均一なモジュラー構造と、共通のコンピューティング・モジュールと、均一なソフトウェア・セルとを用いる。共通のコンピューティング・モジュールの中には、副御装置と、複数の処理ユニットと、処理ユニットがプログラムを処理する元となる複数のローカルメモリと、ダイレクト・メモリ・アクセスと、コントローラと、共用メイン・メモリとか含まれる。共用メイン・メモリからのデータの調整された読み出しと書き込みを処理ユニットによって行うための同期システムと方法とが提供される。



(2)

#### 【特許請求の範囲】

【請求項1】 プログラムと前記プログラムと関連付 けられたデータとを格納する第1メモリと、

1

前記プログラムとそれに関連付けられた前記データとを 処理する複数の第1処理ユニットと、

前記第1処理ユニットによる前記第1メモリへのアクセ スを副御するためのメモリ・コントローラと、

アクセス・テーブルとキー・テーブルを格納する第2メ モリであって、前記アクセス・テーブルは、複数のアク セス・キーと、前記アクセス・キーと関連付けられた前 記第1メモリ内の1つのメモリ・スペースの識別子を含 み、前記キー・テーブルは、複数のキー・エントリを有 し、 
基キー・エントリは、前記第1処理ユニットの識別 子と前記第1処理ユニットと関連するリクエスト・キー を含んで成る第2メモリと、

前記第1処理ユニットによる前記プログラムとそれに関 進付けられた前記データの処理を制御するための第2処 **塑ユニットであって、前記アクセス・テーブルと前記キ** ー・テーブルの作成と更新の操作が可能で、更に、前記 20 第1処理ユニットによる前記プログラムの1つの処理を 行う指示を出すことが可能となる前記第2処理ユニット とを有し、

前記第1処理ユニットの1つは、前記1つのプログラム の処理において前記メモリ・コントローラにリクエスト を出して、前記第1メモリ内の格納位置をアクセスする ことが可能であり、

前記メモリ・コントローラは、前記リクエストに定答し で、前記キー・テーブル内の前記第1処理ユニットの1 つと関連付けられたリクエスト・キーと、前記アクセス 30 ・テーブル内のアクセス・キーとを比較して、前記アク セス・キーの1つが、前記キー・テーブル内の前記第1 処理ユニットの1つと関連付けられたリクエスト・キー と一致して、かつ、前記格納位置が、前記アクセス・テ ープル内の前記1つのアクセス・キーと関連付けられた メモリ・スペースと一致する場合は、前記リクエストの 実行が可能であることを特徴とするコンピュータ処理シ ステム。

【請求項2】 請求項1に記載のコンピュータ処理シス テムにおいて、複数のローカル・メモリをさらに有し、 各々の前記ローカル・メモリは、前記第1処理ユニット の1つと関連付けられていて、前記第2処理ユニット が、前記メモリ・コントローラに対して、前記第1メモ リから、前記1つの第1処理ユニットに関連付けられた ローカル・メモリへ、前記1つのプログラムの転送指示 を出すことによって、前記1つの第1処理ユニットに前 記しつのプログラムの処理を指示することが可能であ り、その後、前記1つの第1処理ユニットが、前記ロー カル・メモリの前記1つのプログラムを処理することを 特徴とするコンピュータ処理システム。

【請求項3】 請求項1に記載のコンピュータ処理シス テムにおいて、前記1つのアクセス・キーが、第1の復 数ピットを有し、前記1つの第1処理ユニットに関連付 けられた前記リクエスト・キーが、第2の複数ビットを 有し、前記第1の複数ビットのすべてと、前記第2の複

数ピットのすべてとが一致する場合にのみ、前記メモリ ・コントローラが、前記リクエストを実行可能であると とを特徴とするコンピュータ処理システム。

【請求項4】 請求項1に記載のコンピュータ処理シス セス・エントリを有し、各アクセス・エントリは、アク「10」テムにおいて、前記1つのアクセス・キーが、第1の復 数ピットとキー・マスクとを有し、前記第1処理ユニッ トに関連付けられた前記リクエスト・キーが、第2の復 数ピットを有し、前記第1の複数ピットのすべてが、前 記第2の複数ビットのすべてと一致する場合、または前 記第2の複数ビットに一致しない前記第1の複数ビット のすべてが前記マスクによってマスクされている場合の いずれかにおいてのみ、前記メモリ・コントローラが、 前記リクエストを実行可能であることを特徴とするコン ビュータ処理システム。

> 【請求項5】 請求項1に記載のコンピュータ処理シス テムにおいて、前記1つのアクセス・キーが、第1の復 数ピットを有し、前記第1処理ユニットに関連付けられ た前記リクエスト・キーが、第2の複数ビットとキー・ マスクとを有し、前記第1の複数ビットのすべてが、前 記第2の複数ビットのすべてと一致する場合、または前 記第1の複数ビットに一致しない前記第2の複数ビット のすべてが前記マスクによってマスクされている場合の いずれかにおいてのみ、前記メモリ・コントローラが、 前記リクエストを実行可能であることを特徴とするコン ビュータ処理システム。

> 【請求項6】 請求項1に記載のコンピュータ処理シス テムにおいて、各々の前記キー・エントリが、キー・マ スクをさらに含むことを特徴とするコンピュータ処理シ ステム。

【請求項7】 請求項1に記載のコンピュータ処理シス テムにおいて、各々の前記アクセス・エントリが、キー ・マスクをさらに含むことを特徴とするコンピュータ処 理システム。

【請求項8】 請求項1に記載のコンピュータ処理シス 40 テムにおいて、各々の前記キー・エントリが、キー・マ スクをさらに含み、各々の前記アクセス・エントリが、 キー・マスクをさらに含むことを特徴とするコンピュー 夕処理システム。

【請求項9】 請求項1に記載のコンピュータ処理シス テムにおいて、各々の前記アクセス・エントリが、ベー ス位置エントリとサイズ・エントリをさらに含み、前記 ベース位置エントリが、前記アクセス・キーに関連付け **られた前記メモリ・スペース内の前記第1メモリ内の関** 始アドレスを指定し、前記サイズ・エントリが、前記ア 50 クセス・エントリに関連付けられた前記メモリ・スペー

3 スの前記第1メモリ内のサイズを指定することを特徴と するコンピュータ処理システム。

【請求項10】 請求項1に記載のコンピュータ処理シ ステムにおいて、前記第1メモリが、ダイナミック・ラ ンダム・アクセス・メモリであって、かつ、前記コンピ ュータ処理システムのメイン、メモリであることを特徴 とするコンピュータ処理システム。

【請求項11】 コンピュータで実行される処理方法に おいて,

第1メモリに、プログラムと、前記プログラムと関連付 10 けられたデータと、を格納するステップと、

複数の第1処理ユニットを用いて、前記プログラムとそ れに関連付けられた前記データとを処理するステップ ٤,

メモリ・コントローラを用いて、前記第1処理ユニット による前記第1メモリへのアクセスを制御するステップ

第2処理ユニットを用いて、第2メモリに、アクセス・ テーブルとキー・テーブルを作成するステップであっ トリを有し、各アクセス・エントリが、前記アクセス・ キーと、前記アクセス・キーと関連付けられた前記第1 メモリのメモリ・スペースの識別子を含み、前記キー・ テーブルが、複数のキー・エントリを有し、各キー・エ ントリが、1つの前記第1処理ユニットの識別子と、前 記第1処理コニットと関連付けられたリクエスト・キー を含むように構成するステップと、

前記第2処理ユニットを用いて、前記第1処理ユニット による前記プログラムとそれに関連付けられた前記デー タの前記処理を制御するステップと.

前記第2処理ユニットを用いて、前記第1処理ユニット のうちの1つに、前記プログラムのうちの1つの処理を 命令するステップと、前記1つの第1処理ユニットか ら、前記1つのプログラムの処理において、前記メモリ ・コントローラにリクエストを出して、前記第1メモリ 内の絡納位置へアクセスするステップと、

前記リクエストに応答して、前記1つの第1処理ユニッ トと関連付けられたリクエスト・キーと、前記アクセス ・テーブル内の前記アクセス・キーとを比較するステッ プと.

1つの前記アクセス・キーが、前記キー・テーブル内の 前記1つの処理ユニットと関連付けられたリクエスト・ キーと一致し、前記格納位置が、前記アクセス・テープ ル内で指定された前記1つのアクセス・キーと関連付け られたメモリ・スペースと一致する場合は、前記リクエ ストを実行するステップと、を有することを特徴とする 方法。

【請求項12】 請求項11に記載の方法において、前 記第1メモリから前記第1処理ユニットに関連付けられ

ように前記第2処理ユニットから、前記メモリ・コント ローラにコマンドを出するとによって、前記第2処理ユ ニットを用いて、前記1つの第1処理ユニットに対して 前記しつのプログラムの処理を命令し、その後、前記第 1処理ユニットを用いて、前記ローカル・メモリから前 記しつのプログラムを処理するステップをさらに有する ことを特徴とする方法。

【請求項13】 請求項11に記載の方法において、前 記1つのアクセス・キーが、第1の複数ビットを育し、

前記第1処理ユニットに関連付けられた前記リクエスト キーが、第2の複数ビットを有し、

前記第1の複数ビットのすべてが、前記第2の複数ビッ トのすべてと一致する場合にのみ、前記メモリ・コント ローラが、前記リクエストを実行するステップを、さら に有ずることを特徴とする方法。

【論求項14】 請求項11に記載の方法において、前 記しつのアクセス・キーが、第1の複数ビットとキー・ マスクとを有し、前記第1処理ユニットに関連付けられ た前記リクエスト・キーが、第2の複数ビットを育し、 て、前記アクセス・テーブルは、複数のアクセス・エン 20 前記第2の複数ビットのすべてが、前記第1の複数ビッ トのすべてと一致する場合。または前記第2の複数ビッ **トに一致しない前記第1の複数ピットのすべてが前記マ** スクによってマスクされている場合のいずれかにおいて のみ、前記メモリ・コントローラが、前記リクエストを 実行するステップをさらに有することを特徴とする方 法。

> 【請求項15】 請求項11に記載の方法において、前 記しつのアクセス・キーが、第1の複数ビットを有し、 前記第1処理ユニットに関連付けられた前記リクエスト キーが、第2の複数ビットとキー・マスクとを育し、 前記第1の複数ビットのすべてが、前記第2の複数ビッ トのすべてと一致する場合。または前記第1の複数ビッ トに一致しない前記第2の複数ビットのすべてが前記マ スクによってマスクされている場合のいずれかにおいて のみ、前記メモリ・コントローラが、前記リクエストを 実行するステップをさらに有することを特徴とする方

【請求項16】 請求項11に記載の方法において、各 々の前記キー・エントリが、キー・マスクをさらに含む 40 ことを特徴とする方法。

【請求項17】 請求項11に記載の方法において、各 々の前記アクセス・エントリが、キー・マスクをさらに 含むことを特徴とする方法。

【請求項18】 請求項11に記載の方法において、各 々の前記キー・エントリが、キー・マスクをさらに含 み、各々の前記アクセス・エントリが、キー・マスクを さらに含むことを特徴とする方法。

【請求項19】 請求項11に記載の方法において、各 々の前記アクセス・エントリが、ベース位置エントリと たローカル・メモリへ前記 1 つのプログラムを転送する 50 サイズ・エントリをさらに含み、前記ベース位置エント

リが、前記アクセス・キーに関連付けられた前記メモリ - スペースの前記第1メモリ内の前記開始アドレスを指 定し、前記サイズ・エントリが、前記アクセス・エント リに関連付けられた前記メモリ・スペースの前記第1メ モリ内のサイズを指定することを特徴とする方法。

【請求項20】 請求項11に記載の方法において、前 記第1メモリが、ダイナミック・ランダム・アクセス・ メモリであって、かつ、前記コンピュータ処理システム のメイン・メモリであることを特徴とする方法。

けられたデータを格納する第1メモリであって、複数の アドレス可能な格納位置を有し、アドレス可能な各格納 位置は、前記アドレス可能な格納位置に関連付けられる とともに前記アドレス可能な格納位置のアクセス・キー を含む追加メモリ・セグメント有して成る第1メモリ

前記プログラムとそれに関連付けられた前記データとを 処理するための複数の第1処理ユニットと、

前記第1メモリへの前記第1処理ユニットによるアクセ ス副御のためのメモリ・コントローラと、

複数のキー・エントリから成るキー・テーブルを格納す るための第2メモリであって、各キー・エントリが、前 記第1処理ユニットの1つの識別子と、前記第1処理ユ ニットと関連付けられたリクエスト・キーとを含んでな る第2メモリと、

前記第1処理ユニットによる前記プログラムとそれに関 連付けられた前記データの処理を制御するための第2処 選ユニットであって、前記アクセス・キーの割り当てと 夏新ねよび前記アクセス・キー・テーブルの作成と夏新 よる前記プログラムの1つの処理を指示することが可能 となる第2処理ユニットとを有し、

前記第1処理ユニットの1つは、前記プログラムの1つ の処理において前記メモリ・コントローラにリクエスト を出して、前記第1メモリ内の格納位置をアクセスする ことが可能であり、

前記メモリ・コントローラは、前記リクエストに応答し で、前記キー・テーブル内の前記第1処理ユニットの1 つと関連付けられたリクエスト・キーと、前記1つのア ドレス可能な絡納位置と関連付けられている追加メモリ ・セグメントに含まれているアクセス・キーとを比較し て、前記キー・テーブル内の前記第1処理ユニットの1 つと関連付けられたリクエスト・キーと、前記1つのア ドレス可能な格納位置と関連付けられている追加メモリ ・セグメントに含まれている前記アクセス・キーが一致 する場合は、前記リクエストを実行することが可能であ ることを特徴とするコンピュータ処理システム。

【詰求項22】 請求項21に記載のコンピュータ処理 システムにおいて、複数のローカル・メモリをさらに有 し、前記ローカル・メモリの各々は、前記第1処理ユニ 59 【請求項27】 請求項21に記載のコンピュータ処理

ットの1つと関連付けられていて、前記第2処理ユニッ トが、前記メモリ・コントローラに対して、前記第1メ モリから前記1つのプログラムを前記第1処理ユニット に関連付けられたローカル・メモリへ転送する指示を出 すととによって、前記1つの第1処理スニットに前記プ ログラムの処理を指示することが可能であり、その後、 前記1つの第1処理ユニットが、前記ローカル・メモリ から前記1つのプログラムを処理可能であることを特徴 とするコンピュータ処理システム。

5

【請求項21】 プログラムと前記プログラムと関連付 10 【請求項23】 請求項21に記載のコンピュータ処理 システムにおいて、前記1つのアドレス可能なメモリ位 置に関連付けられた前記メモリ・セグメントに含まれて いる前記アクセス・キーが、第1の複数ビットを有し、 前記第1処理ユニットに関連付けられた前記リクエスト ・キーが、第2の複数ピットを有し、前記第1の複数ビ ットのすべてが、前記第2の複数ピットのすべてと一致 する場合にのみ、前記メモリ・コントローラが、前記リ クエストを実行可能であることを特徴とするコンピュー タ処理システム。

20 【請求項24】 請求項21に記載のコンピュータ処理 システムにおいて、前記1つのアドレス可能なメモリ位 置に関連付けられた前記メモリ・セグメントに含まれて いる前記アクセス・キーが、第1の複数ビットとキー・ マスクを有し、前記第1処理ユニットに関連付けられた 前記リクエスト・キーが、第2の複数ビットを有し、前 記第1の複数ビットのすべてが、前記第2の複数ビット のすべてと一致する場合。または前記第2の複数ビット に一致しない前記第1の複数ビットのすべてが前記マス クによってマスクされている場合のいずれかにおいての が可能で、更に、前記第1処理ユニットのうちの1つに 30 み、前記メモリ・コントローラが、前記リクエストを実 行可能であるととを特徴とするコンピュータ処理システ

> 【請求項25】 請求項21に記載のコンピュータ処理 システムにおいて、前記1つのアドレス可能な格納位置 に関連付けられた前記メモリ・セグメントに含まれてい る前記アクセス・キーが、第1の複数ビットを有し、前 記第1処理ユニットに関連付けられた前記リクエスト・ キーが、第2の複数ビットとキー・マスクを有し、前記 第1の複数ビットのすべてが、前記第2の複数ビットの 40 すべてと一致する場合、または前記第1の複数ビットに 一致しない前記第2の複数ビットのすべてが前記マスク によってマスクされている場合のいずれかにおいての み、前記メモリ・コントローラが、前記リクエストを実 行可能であることを特徴とするコンピュータ処理システ

【請求項26】 請求項21に記載のコンピュータ処理 システムにおいて、各々の前記キー・エントリが、キー ・マスクをさらに含むことを特徴とするコンピュータ処 理システム。

システムにおいて、各々の前記追加メモリ・セグメント が、キー・マスクをさらに含むことを特徴とするコンピ ュータ処理システム。

7

【請求項28】 請求項21に記載のコンピュータ処理 システムにおいて、各々の前記キー・エントリが、キー ・マスクをさらに含み、蓋々の前記追燗メモリ・セグメ ントが、キー・マスクをさらに含むことを特徴とするコ ンピュータ処理システム。

【請求項29】 請求項2]に記載のコンピュータ処理 システムにおいて、各々の前記追加メモリ・セグメント 10 が、前記追加メモリ・セグメントに関連付けられたアド レス可能な格納位置に格納されているデータのステータ スに関するステータス情報をさらに含むことを特徴とす るコンピュータ処理システム。

【請求項30】 請求項21に記載のコンピュータ処理 システムにおいて、前記第1メモリが、ダイナミック・ ランダム・アクセス・メモリであって、かつ、前記コン ビュータ処理システムのメイン・メモリであることを特 数とするコンピュータ処理システム。

る処理方法において、

第1メモリに、プログラムと前記プログラムの関連デー タを絡納するステップであって、複数のアドレス可能な 格納位置を有し、前記アドレス可能な各格納位置には、 前記アドレス可能な格納位置に関連付けられた追加メモ リ・セグメントを含むステップと、

各々の前記アドレス可能な絡納位置用の各々の前記追加 メモリ・セグメントに、前記アドレス可能な格納位置の ためのアクセス・キーを格納するステップと、

れに関連付けられた前記データを処理するステップと、 メモリ・コントローラを用いて、前記第1処理ユニット による前記第1メモリへのアクセスを制御するステップ

第2メモリに、複数のキー・エントリから成るキー・テ ーブルを格納するステップであって、各キー・エントリ が、前記第1処理ユニットと関連付けられた識別子と、 前記第1処理ユニットと関連付けられたリクエスト・キ ーを含むステップと、

による前記プログラムとそれに関連付けられた前記デー タの前記処理を制御するステップと、

前記第2処理ユニットを用いて、各々の前記アクセス・ キーを割り当てるステップと、

前記第2処理ユニットを用いて、前記キー・テーブルを 作成するステップと、

前記第2処理ユニットを用いて、前記第1処理ユニット のいずれか1つに、前記プログラムの1つを実行する命 令を出すステップと、

前記第1処理ユニットの1つから、前記1つのプログラ 50 理ユニットに関連付けられた前記リクエスト・キーが、

ムの処理において、1つの前記アドレス可能な格納位置 ヘアクセスするように、前記メモリ・コントローラヘリ クエストを出すステップと、

前記リクエストに応答して、前記キー・テーブル内で前 記1つの第1処理ユニットと関連付けられたリクエスト ・キーと、前記1つのアドレス可能な絡納位置に絡納さ れているアクセス・キーとを比較するステップと、

前記キー・テーブル内の前記1つの処理ユニットと関連 付けられたリクエスト・キーと前記アドレス可能な格納 位置と関連付けられた前記追加メモリ・セグメント内に 格納されている前記アクセス・キーが一致する場合は、 前記リクエストを実行するステップと、を有することを 特徴とする方法。

【請求項32】 請求項31に記載の方法において、前 記第2処理ユニットを用いて、前記第1メモリから前記 1つの第1処理ユニットに関連付けられたローカル・メ モリへ前記1つのプログラムを転送するように前記メモ リ・コントローラに命令することによって、前記1つの 第1処理ユニットに対して前記1つのプログラムの処理 【請求項31】 コンピュータ処理システムにてなされ 20 を命令するステップと、その後、前記第1処理ユニット によって、前記ローカル・メモリから前記1つのプログ ラムを実行するステップと、をさらに有することを特徴 とする方法。

【請求項33】 請求項31に記載の方法において、前 記1つのアドレス可能なメモリ位置に関連付けられた前 記追加メモリ・セグメントに含まれている前記アクセス ・キーが、第1の複数ピットを有し、前記第1処理ユニ ットに関連付けられた前記リクエスト・キーが、第2の 複数ビットを有し、前記第1の複数ビットのすべてが、 複数の第1処理ユニットを用いて、前記プログラムとそ 30 前記第2の複数ビットのすべてと一致する場合にのみ、 前記メモリ・コントローラが、前記リクエストを実行す るステップをさらに有することを特徴とするコンピュー タ処理方法。

【請求項34】 請求項31に記載の方法において、前 記1つのアドレス可能なメモリ位置に関連付けられた前 記追加メモリ・セグメントに含まれている前記アクセス キーが、第1の複数ビットとキー・マスクを有し、前 記第1処理コニットに関連付けられた前記リクエスト・ キーが、第2の複数ピットを有し、前記第1の複数ピッ 前記第2処理ユニットを用いて、前記第1処理ユニット 40 卜のすべてが、前記第2の複数ビットのすべてと一致す る場合、または前記第2の複数ピットに一致しない前記 第1の複数ビットのすべてが前記マスクによってマスク されている場合のいずれかにおいてのみ、前記メモリ・ コントローラが、前記リクエストを実行するステップを さらに有することを特徴とするコンピュータ処理方法。 【請求項35】 請求項31に記載の方法において、前 記1つのアドレス可能なメモリ位置に関連付けられた前 記追加メモリ・セグメントに含まれている前記アクセス ・キーが、第1の複数ビットを有し、前記1つの第1処 (6)

第2の複数ビットとキー・マスクを有し、前記第2の復 数ピットのすべてが、前記第1の複数ピットのすべてと 一致する場合。または前記第1の複数ピットに一致しな い前記第2の複数ビットのすべてが前記マスクによって マスクされている場合のいずれかにおいてのみ、前記メ モリ・コントローラが、前記リクエストを実行するステ ップをさらに有することを特徴とするコンピュータ処理 方法。

【請求項36】 請求項31に記載の方法において、各 々の前記キー・エントリが、キー・マスクをさらに含む。10 ーションを書くことを要求される。今日のコンピュータ ことを特徴とするコンピュータ処理方法。

【請求項37】 請求項31に記載の方法において、各 々の前記追加メモリ・セグメントが、キー・マスクをさ ちに含むことを特徴とするコンピュータ処理方法。

【請求項38】 請求項31に記載の方法において、各 々の前記キー・エントリが、キー・マスクをさらに含 み、基々の前記追加メモリ・セグメントが、キー・マス クをさらに含むことを特徴とするコンピュータ処理方

【請求項39】 請求項31に記載の方法において、各 20 々の前記追加メモリ・セグメントが、前記追加メモリ・ セグメントに関連付けられたアドレス可能格納位置に格 納されているデータの前記ステータスに関するステータ ス情報をさらに含むことを特徴とするコンピュータ処理 方法。

【請求項40】 請求項31に記載の方法において、前 記第1メモリが、ダイナミック・ランダム・アクセス・ メモリであって、かつ前記コンピュータ処理システムの メイン・メモリであることを特徴とするコンピュータ処 理方法。

【発明の詳細な説明】

[0001]

【発明の属する技術分野】本発明はコンピュータ・プロ セッサ用アーキテクチャとコンピュータ・ネットワーク とに関し、広帯域環境におけるコンピュータ・プロセッ サおよびコンピュータ・ネットワーク用アーキテクチャ に関する。さらに、本発明は、このようなアーキテクチ +のためのプログラミング・モデルに関する。

[0002]

【従来の技術】コンピュータおよび現今のコンピュータ 40 ・ネットワーク(オフィスのネットワークで使用される) ローカル・エリア・ネットワーク(LAN)やインターネ ットのようなグローバルネットワークなど)の計算用鉄 置は、スタンド・アローン型の計算用として主として設 計されてきた。コンピュータ・ネットワークを介するデ ータとアプリケーション・プログラム(「アプリケーシ ョン")の共用は、これらのコンピュータおよびコンピ ューティング・デバイスの主要な設計目標ではなかっ た。これちのコンピュータとコンピューティング・デバ イスは、また、様々な異なるメーカー(モトローラ、イ 50 数のアプリケーションを用意することが要求される。

ンテル、テキサス・インスツルメント、ソニーなど)に よって製造された広範囲の異なるタイプのフロセッサを 用いて一般に設計されたものである。これらのプロセッ サの基々は、それ自身の特定の命令セットと命令セット ·アーキテクチャ(ISA)とを持っている。すなわち、 それ自身の特定のセットのアセンブリ言語命令と、これ ちの命令を実行する主演算装置と記憶装置のための構造 とを育する。プログラマは、各プロセッサの命令セット とISAとを理解してこれらのプロセッサ用のアプリケ ネットワーク上でのコンピュータとコンピューティン グ・デバイスには異なった種類が混在していることか ら、データとアプリケーションの共用及びその処理は復 雑になっている。さらに、この複数種が復在する環境に 対する調整を行うために、多くの場合、同じアプリケー

【0003】グローバルネットワーク、特にインターネ ットと接続されたタイプのコンピュータやコンピューテ ィング・デバイスは広範囲に及ぶ。バーソナル・コンピ ュータ(PC)とサーバーに加えて、これらのコンピュー ティング・デバイスの中にはセルラー電話、移動用コン ビュータ、個人用情報機器(PDA)。 セット・トップ・ ボックス、デジタルテレビ並びにその他の装置が含まれ る。コンピュータやコンピューティング・デバイスにお いて異種製品が混在する中でのデータやアプリケーショ ンを共用するととに起因して、大きな問題が生じてい る.

ションであっても複数のバージョンを用意することが必

要となっている。

【0004】とれらの問題を解決するためのいくつかの 30 手法が試みられてきた。これらの手法の中には、特に、 優れたインターフェースと複雑なプログラミング手法が 含まれる。これらの解決方法では、処理パワーの実質的 **増加の実現がしばしば要求される。また、これらの解決** 方法では、アプリケーションの処理に必要な時間と、ネ ットワークを介するデータ伝送に必要な時間とが実質的 に増加してしまうという結果がしばしば生じる。

【0005】一般に、データは、対応するアプリケーシ ョンとは別個に、インターネットを介して伝送される。 このアプローチでは、アプリケーションに対応した各セ ットの伝送データにアプリケーション自体をも送る必要 はなくなっている。従って、このアプローチによって、 必要とされる帯域幅の置は最少化されるものの、ユーザ ーには不満の原因となることも多々ある。つまり、クラ イアント側のコンピュータでは、この伝送データを利用 するための適正なアプリケーション。あるいは最新のア プリケーションを入手できない事態も生じ得る。また、 とのアプローチでは、ネットワーク上のプロセッサによ って用いられている複数の異種!SAと命令セットに対 応して、各アプリケーション毎にバージョンの異なる復

【0006】Java (登録商標) モデルでは、この間 題の解決が試みられている。このモデルでは、厳しいセ キュリティ・プロトコルに準鑑する小さなアプリケーシ ョン(「アブレット(applet)」)が用いられている。アブ レットは、ネットワークを介してサーバー側コンピュー タから送信されてクライアント側コンピュータ(「クラ イアント")によって実行される。異なるISAを使用 しているクライアント毎に、同じアブレットであっても 異なるバージョンを送信するという事態を避ける必要が あるため、すべてのJavaアフレットは、クライアン 10 アプリケーションの共用という問題が解決されることが **卜側のJava仮想マシーン上で実行される。Java** 仮想マシーンとは、JavaISAと命令セットとを償 えたコンピュータをエミュレートするソフトウェアであ る。しかし、このソフトウェアは、クライアント側の! SAとクライアント側の命令セットにより実行される。 クライアント側では!SAと命令セットが各々異なる が、与えられるJavaの仮想マシーンのバージョンは 一つである。したがって、複数の各アプレットごとに異 なるバージョンを用意する必要はない。各クライアント では、当該クライアントにおける!SAと命令セットに 20 ータ・ネットワークに代えて、コンピュータ・ネットワ 対応した適正なJava仮想マシーンだけをダウンロー ドすれば、javaアプレットを実行できる。 [0007]

【発明が解決しようとする謙題】各々の異なる【SAと 命令セットに対して異なるバージョンのアプリケーショ ンを書かなければならないという課題は解決されている ものの、Javaの処理モデルでは、クライアント側の コンピュータに対してソフトウェアの追加層が要求され る。ソフトウェアのこの追加層のためにプロセッサの処 イムのマルチメディア・アプリケーションについて特に 著しい。また、ダウンロードされたJavaアブレット の中にはウィルス、処理上の誤動作などが含まれている 可能性がある。これらのウィルスと誤動作はクライアン トのデータベースの破損やその他の損害の原因となる可 能性がある。Javaモデルで用いられているセキュリ ティ用プロトコルでは、"サンドボックス(sandbox)" (Javaアプレットがそれ以上はデータを書き込むと とができない。 クライアント側のメモリ内のスペース) 決が試みられているとはいえ、このソフトウェア駆動型 セキュリティ・モデルはその実行時に頻繁に不安定にな り、より多くの処理が必要となる。

【0008】リアルタイムの、マルチメディア・ネット ワーク用アプリケーションがますます重要なものになり つつある。これらのネットワーク用アプリケーションで は非常に高速な処理が要求される。符来、そのようなア プリケーション用として毎秒何千メガビットものデータ が必要となるかもしれない。ネットワークの現今のアー キテクチャ、および、特にインターネットのアーキテク 50 第2の処理ユニットとを有し、前記第1の処理ユニット

チャ、並びに、Javaモデルなどで現在実施されてい るプログラミング・モデルでこのような処理速度に到達 するととは非常に難しい。

12

【0009】したがって、新しいコンピュータ・アーキ テクチャと、コンピュータ・ネットワーク用の新しいア ーキテクチャと、新しいプログラミング・モデルとが求 められている。この新しいアーキテクテャとプログラミ ング・モデルとによって、計算上の負担が付加されるこ となく、ネットワークの様々なメンバー間でのデータと 望ましい。また、この新しいコンピュータ・アーキテク チャと、プログラミング・モデルとによって、ネットワ ークのメンバー間でのアプリケーションとデータの共用 時に生じる、固有のセキュリティ上の問題も解決される ことが窒ましい。

[0010]

【課題を解決するための手段】本発明の一裏施形態にお いては、コンピュータと、コンピューティング・デバイ スと、コンピュータ・ネットワーク(あるいはコンピュ ーク・システムや複数のコンピュータを備えたコンピュ ータ・システムというカテゴリーや形態とすることもで きる)とのための新しいアーキテクチャが提供される。 他の実施形態では、本発明は、これらのコンピュータ、 コンピューティング・デバイスおよびコンピュータ・ネ ットワークのための新しいプログラミング・モデルを提 供するものである。

【0011】本発明によれば、コンピュータ・ネットワ ークのすべてのメンバー(ネットワーク上のすべてのコ 理速度は著しく低下する。この速度の低下は、リアルタ 30 ンピュータとコンピューティング・デバイス)は共通の コンピューティング・モジェールから構成される。この **共通のコンピューティング・モジュールは均一な構造を** 有し、好適には同じ!SAが使用される。ネットワーク のメンバーとして、クライアント、サーバー、PC、移 動用コンピュータ、ゲーム用マシーン、PDA、セット トップ・ボックス、電気機器、デジタルテレビ、およ び、コンピュータ・プロセッサを用いるその他の装置が 挙げられる。均一なモジュラー構造によって、ネットワ ークのメンバーによるアプリケーションとデータの効率 というソフトウェアを設けることにより、この問題の解 40 的高速処理と、ネットワークを介するアプリケーション とデータの高速伝送とが可能となる。またこの構造によ って、様々なサイズと処理パワーを持つネットワークの メンバーの構成が単純化され、これらのメンバーによる 処理用アプリケーションの作成が単純化される。

> 【0012】また、本発明によれば、コンピュータ・ネ ットワークにおいて、前記ネットワークと接続された復 数のプロセッサを有し、前記プロセッサの各々が、同じ 命令セット・アーキテクチャを有する複数の第1の処理 ユニットと、前記第1の処理ユニットを制御するための

が、前記ネットワークを介して伝送されるソフトウェア ・セルを処理するために作動可能であり、前記ソフトウ ェア・セルの各々が、前記命令セット・アーキテクチャ と互換性のあるプログラムと、前記プログラムと関連付 けられたデータと、前記ネットワークを介して伝送され る前記ソフトウェア、セルのすべての間で前記ソフトウ ェア・セルを一意的に識別するための識別子(例えばセ ルの識別番号)と、を有することを特徴とするコンピュ ータ・ネットワークも提供される。

13

【0013】なお、本発明によれば、コンピュータ・ネー10 ットワークと接続される複数のプロセッサを有するコン ビュータ・システムであって、前記プロセッサの番々 が、同じ命令セット・アーキテクチャを有する複数の第 1の処理ユニットと、前記第1の処理ユニットを制御す るための第2の処理ユニットとを有し、前記第1の処理 ユニットが、前記ネットワークを介して伝送されるソフ トウェア・セルを処理するために作動可能であり、前記 ソフトウェア・セルの各々が、前記命令セット・アーキ テクチャと互換性のあるプログラムと、前記プログラム 伝送される前記ソフトウェア・セルのすべての間で前記 ソフトウェア・セルを一意的に識別するための識別子 (例えばセルの識別番号)と、を有することを特徴とす るコンピュータ・システムも提供される。

【()() 1.4 】加えて、本発明によれば、コンピュータ・ ネットワークを介する伝送用ソフトウェア・セルのデー タ・ストリームにおいて、前記コンピュータ・ネットワ ークが、複数のプロセッサを有し、前記ソフトウェア・ セルの各々が、前記プロセッサの中の1以上によって処 **塑するためのプログラムと、前記プログラムと関連付け** られたデータと、前記ネットワークを介して伝送される すべてのソフトウェア・セルの中で前記ソフトウェア・ セルを一意的に識別するグローバルな識別子と、を有す ることを特徴とするデータ・ストリームも提供される。 なお、上記模成において、「データ・ストリーム」とい **う形態に代えて、「データ構造」という形態、あるいは** 「上述のような構造を有するデータ」という形態で本発 明を提供することも可能である。

【0015】他の実施形態では、本発明は、ネットワー クを介してデータとアプリケーションを伝送するため の。また、ネットワークのメンバー間でデータとアプリ ケーションを処理するための新しいプログラミング・モ デルを提供する。このプログラミング・モデルでは、ネ ットワークのいずれのメンバーでも処理できる。ネット ワークを介して伝送されるソフトウェア・セルが使用さ れる。各ソフトウェア・セルは同じ構造を有し、アプリ ケーションとデータの双方を含むことが可能である。モ ジュラー型コンピュータ・アーキテクチャによって提供 される高速処理と伝送速度の結果、これらのセルの高速 処理が可能となる。アプリケーション用コードは同じ共 50 指定され、複数のフルーエンプティ・ビットが格納され

通の命令セットと!SAに好適に基づくものである。各 ソフトウェア・セルは、グローバルな識別子(グローバー ル I D)と、セルの処理に必要な計算用リソースの量に ついて説明する情報とを好適に含むことが望ましい。す べての計算用リソースは同じ基本構造を有し、同じ!\$ Aが用いられているので、このセルの処理を実行する特 定のリソースは、ネットワーク上のどこにでも配置が可 能となり、動的に割り当てることができる。

【0016】墓本となる処理用モジュールはプロセッサ ・エレメント(PE)である。PEは、好適には、処理ユ エット(PU)。ダイレクト・メモリ・アクセス・コント ローラ(DMAC)および複数の付加処理ユニット(AP U)を具備することが望ましい。好ましい実施形態で は、1つのPEは8つのAPUを具備する。PUとAP Uとは、クロスバ・アーキテクチャを好適に備えている **共用ダイナミック・ランダム・アクセス・メモリ(DR** AM)を用いてリアルタイムで適信を行う。PUは、A PUによって、データとアプリケーションの処理のスケ ジュール管理と全般的管理とを行う。APUは並列的か と関連付けられたデータと、前記ネットワークを介して、20 つ独立にこの処理を実行する。DMACは、共用DRA Mに搭納されているデータとアプリケーションへのアク セス制御をPUとAPUとによって行う。

> 【0017】とのモジュラー構造によれば、ネットワー クのメンバーによって用いられるPEの数は、そのメン バーが必要とする処理パワーに基づく。例えば、1台の サーバーは4つのPEを用いることができ、1台のワー クステーションは2つのPEを用いることができ、1つ のPDAは1つのPEを用いることができる。特定のソ フトウェア・セルの処理に割り当てられるPEのAPU の数は、そのセル内のプログラムとデータの復継さと大 きさとによって疾まる。

【0018】好ましい実施形態では、複数のPEが1つ の共用DRAMと関連付けられる。好適には、DRAM は複数のセクションに分割され、これらのセクションの 各々は復数のメモリ・バンクに分割される。特に好まし い実施形態では、DRAMは64個のメモリ・バンクを 有し、各バンクは1メガバイトの記憶容置を有する。D RAMの各セクションは、好適には、バンク・コントロ ーラによって制御されることが望ましく、PEの各DM 40 ACは、好適には、各バンク・コントローラにアクセス することが望ましい。したがって、この実施形態の各P EのDMACは、共用DRAMの任意の部分へのアクセ スが可能となる。

【①①19】別の態様では、本発明は、共用DRAMか ちのAPUのデータの読み出しと、共用DRAMへのデ ータの書き込みのための同期システムと方法とを提供す る。とのシステムによって、DRAMを共用している彼 数のAPUと複数のPEとの間のコンプリクトが防止さ れる。このシステムと方法とによれば、DRAM領域が

る。これらのフルーエンプティ・ビットの各々は、DR AMの指定領域に対応する。との同期システムはDRA Mのハードウェアの中に統合化されるので、ソフトウェ アの中で実行されるデータ同期方式の計算上のオーバー ヘッドはこのシステムによって防止される。

【0020】また本発明によって、DRAM内にサンド ボックスが設けられ、1つのAPUのプログラム処理用 データから生じる、肌のAPUのプログラム処理用デー タの設損に対するセキュリティが与えられる。各サンド ボックスによって、データの読み出しや書き込みが不可 10 能となる共用DRAM領域が画定される。

【0021】別の態様では、本発明は、PUがAPUへ コマンドを出して、アプリケーションとデータのAPU による処理を開始するためのシステムと方法とを提供す るものである。これらのコマンドは、APU遠隔処理命 令(ARPC)と呼ばれ、このコマンドによって、APU がコプロセッサの役割を演じることなく、アプリケーシ ョンとデータのAPUによる並列処理のPUによる全般 的管理と調整が可能となる。

リーミング・データ処理用の専用バイブライン構造を設 定するシステムと方法とが提供される。このシステムと 方法によれば、PUによってこれらのストリーミング・ データの処理を行うために、APUの調整グループと、 これらのAPUと関連するメモリサンドボックスの調整 グループとが設定される。バイブ・ラインの専用APU とメモリサンドボックスとは、データ処理が行われない 時間中もバイブ・ライン専用のままである。言い換えれ ば、専用APU及びこれらの専用APUと関連するサン 下ボックスとは、この期間中は予約状態となる。

【① 023】他の実施形態では、本発明はタスク処理用 の絶対タイマーを提供する。この絶対タイマーは、アブ リケーションとデータの処理用としてAPUが使用する クロック周波数に依存しない。アプリケーションは、絶 対タイマーによって定義される、タスク用の時間に基づ いて書かれる。APUが使用しているクロック周波数 が、APUの機能の改善などに起因して増加しても、絶 対タイマーによって定義される所定のタスク用の時間は そのまま同じである。この方式によれば、古いAPUに ーションの処理を、これらの新しいAPUでは行わせな いとととする必要がなく、かつ、新しいバージョンのA PUによる処理時間の向上を実現することが可能にな る。

【0024】また本発明は、より処理速度が高速な新し いAPUを、古いAPUにおける遅い処理速度を前提と して書かれた古いアプリケーションの処理に用いること を可能にする。他の方式をも提供するものである。この 方式では、速度の改善によって生じるAPUの並列処理 の調整における問題の処理の間に、これらの古いアプリ 50 を実行する複数の同一処理ユニットとが含まれる。

ケーションの処理時にAPUが使用している命令(マイ クロコード)が分析される。APUによる処理の順番が プログラムが予期する順番どおりに維持されるよう、 "オペレーションなし" ( "NOOP" )命令が、これら

のAPUのいくつかによって実行される命令の中へ挿入 される。これらの命令の中へこれらの"NOOP"を挿 入することにより、APUによるすべての命令を実行す るための正しいタイミングが維持される。

【0025】他の実施形態では、本発明は、光導液路が 統合化される集積回路を含むチップ・バッケージを提供 するものである。

[0026]

【発明の実施の形態】図1に、本発明によるコンピュー タ・システム101のアーキテクチャ全体を示す。 【0027】この図に例示されているように、システム 101にはネットワーク104が含まれ、複数のコンビ ュータとコンピューティング・デバイスがこのネットワ ークと接続されている。ネットワーク104の例とし て、LAN、インターネットのようなグローバルネット 【0022】他の実施形態では、本発明によって、スト 20 ワーク、あるいは他のコンピュータ・ネットワークが挙 けられる。

> 【0028】ネットワーク104と接続されたコンピュ ータとコンピューティング・デバイス(ネットワークの) 「メンバー")の中には、クライアント側コンピュータ 106、サーバーコンピュータ108。個人用情報機器 (PDA)110. デジタルテレビ(DTV)112および その他の有線または無線コンピュータとコンピューティ ング・デバイスなどが含まれる。ネットワーク104の メンバーによって用いられるプロセッサは、同じ共通の 30 コンピューティング・モジュールから構成される。また これらのプロセッサは、好適には、ISAがすべて同じ で、好適には同じ命令セットに従って処理を実行する。 個々のプロセッサ内に含まれるモジェールの数は、その プロセッサが必要とする処理パワーによって決められ る。

【0029】例えば、システム101のサーバー108 は、クライアント106より多いデータ処理およびアプ リケーション処理を実行するので、クライアント106 より多いコンピューティング・モジュールを含むことに おける遅い処理時間を前提として書かれた古いアプリケ 40 なる。一方、PDA110では最低量の処理しか実行さ れない。したがって、PDA110には最少の数のコン ピューティング・モジュールしか含まれない。 DTV 1 12はクライアント106とサーバー108の間の処理 レベルを実行する。したがって、DTV112にはクラ イアント106とサーバー108の間のいくつかのコン ピューティング・モジュールが含まれる。以下に説明す るように、各コンピューティング・モジュールの中に は、処理用コントローラと、ネットワーク104を介し て伝送されるデータおよびアプリケーションの並列処理

【0030】システム101がこのように均質な構成を 有することから、アダプタビリティ、処理速度および処 理効率が改善される。システム101の各メンバーが、 同じコンピューティング・モジュールのうち上つまたは それ以上(またはコンピューティング・モジュールの一 部) を用いて処理を実行するので、データとアプリケー ションの実際の処理をどのコンピュータまたはコンピュ ーティング・デバイスで実行するかは重要ではなくな る。さらに、個々のアプリケーションとデータの処理 は、ネットワークのメンバーの間で分類することができ 10 APU211、APU213、APU215、APU2 る。システム全体を通じて、システム101が処理した データとアプリケーションを含むセルを一意的に識別す るととにより、この処理がどこで行われたかにかかわら ず、処理を要求したコンピュータまたはコンピューティ ング・デバイスへその処理結果を伝送することが可能と なる。この処理を実行するモジュールが共通の構造と共 通のISAとを有するので、プロセッサ間の互換性を達 成するためのソフトウェアの追加層の計算上の負担が回 避される。このアーキテクチャとプログラミング・モデ ルによって、リアルタイムのマルチメディア・アプリケー20

17

ーションなどの実行に必要な処理速度が改善される。 【0031】システム101によって改善される処理速 度と効率というさらなる利点を利用するために、とのシ ステムによって処理されるデータとアプリケーションと は、一意的に識別される。それぞれフォーマットが同じ であるソフトウェア・セル102へとバッケージ化され る。 各ソフトウェア・セル102は、アプリケーション とデータの双方を含むあるいは含み得る。また各ソフト ウェア・セルには、ネットワーク104とシステム10 1全体の中でセルを識別するためのセル識別子が含ま れ、その一例としては、ソフトウェア・セルをグローバ ルに識別する【Dが含まれる。ソフトウェア・セルのこ の構造的均一性と、ネットワークの中でのソフトウェア ・セルの一意的識別とによって、ネットワークの任意の コンピュータまたはコンピューティング・デバイスでの アプリケーションとデータの処理が改善される。例え は、クライアント106は、ソフトウェア・セル102 の作成を行うこともできるが、クライアント106側の 処理能力は限られていることから、このソフトウェア・ セルをサーバー108へ伝送して処理してもろうことも。 できる。したがって、ソフトウェア・セルは、ネットワ ーク10.4全体を移動してネットワーク上での処理用リ ソースの可用性に基づく処理を行うことが可能となる。 【0032】また、システム101のプロセッサとソフ トウェア・セルが均質な構造を有することで、今日の異 質なネットワークの混在という問題の多くを防ぐことが できる。例えば任意の命令セットを用いる任意のどの! SA上でもアプリケーションの処理を許容しようとする 非効率的なプログラミング・モデル(Javaのバーチ ャル・マシーンのような仮想マシーンなど)が回避され 50 で、データとアプリケーションの処理のスケジュール管

る。したがって、システム101は、今日のネットワー **りよりもはるかに効率的。かつ、はるかに効果的に広帯** 域処理の実現が可能となる。

【0033】ネットワーク104のすべてのメンバーの ための基本となる処理用モジュールはプロセッサ・エレ メント(PE)である。図2にPEの構造が例示されてい る。との図に示すように、PE201は、処理ユニット (PU)203. DMAC205、複数の付加処理ユニッ F(APU), fabs, APU207, APU209, 17. APU219、APU221を具備する。ローカ иРЕХХ223It, APUE, DMAC205E, P U203との間でデータとアプリケーションとを伝送す る。ローカルPEバス223は、従来型のアーキテクチ ャなどを備えていてもよいし、あるいは、パケット交換 式ネットワークとして実現されてもよい。バケット交換 式ネットワークとして実現される場合。より多くのハー ドウェアが必要となり、その一方で、利用可能な帯域幅 が増加する。

【 0 0 3 4 ] P E 2 0 1 は、デジタル論理回路を実現す る様々な方法を用いて構成可能である。しかし、PE2 ①1は、好適には、シリコン基板上の単一の集積回路と して構成されることが望ましい。基板用代替材料の中に は、ガリウム砒素、ガリウム・アルミニウム砒素、砒素 および多種多様のドーパントを用いるその他のいわゆる III-B化合物が含まれる。またPE201は、超伝導 材料(高速単一磁束量子(RSFQ)論理処理など)を用い て実現することもできる。

【0035】PE201は、高帯域メモリ接続部227 30 を介してダイナミック・ランダム・アクセス・メモリ (DRAM)225と密接に関連する。DRAM225は PE201用メイン・メモリとして機能する。DRAM 225は好適には、ダイナミック・ランダム・アクセス ・メモリであることが望ましいとはいえ、他の手段、例 えばスタティック・ランダム・アクセス・メモリ(SR AM)として、遊気ランダム・アクセス・メモリ(MRA Mi)、光メモリまたはホログラフィ・メモリなどを用い てDRAM225を実現することもできる。DMAC2 OSによって、DRAM225と、PE201のAPU とPUとの間のデータ転送が改善される。以下さらに競 明するように、DMAC205によって、各APUに対 するDRAM225内の排他的領域が指定されるが、こ の排他的領域の中へはAPUだけしかデータの書き込み ができず、また、APUだけしかこの排他的領域からの データ読み出しを行うことができない。この緋他的領域 は"サンドボックス"と呼ばれる。

【0036】PU203は、データとアプリケーション のスタンド・アローン型処理が可能な標準的プロセッサ などであってもよい。作動時に、PUは、APUによっ

理と全般的管理とを行う。APUは好適には、単一命 令、複数データ(SIMD)プロセッサであることが望ま しい。PU203の制御によって、APUは、並列的か つ独立にこれらのデータとアプリケーションの処理を実 行する。DMAC205は、共用DRAM225に格納 されているデータとアプリケーションへのPU203と APUによるアクセス制御を行う。PE201は、好適 には8個のAPUを含むことが望ましいとはいえ、必要 とする処理パワーに応じて、PE内でとの数より多少上 下する個数のAPUを用いてもよい。また、PE201 10 はさらに内部バス408.420、418が含まれる。 のようないくつかのPEを結合(まとめてバッケージ化) して処理パワーの改善を図ることもできる。

19

【0037】例えば、図3に示すように、1以上のチッ プ・バッケージなどの中に4つのPEをパッケージ化 (まとめて結合)してネットワーク104のメンバー用の 単一プロセッサを形成してもよい。この構成は広帯域エ ンジン(BE)と呼ばれる。図3に示すように、BE30 1には4つのPE(PE303, PE305, PE30 7. PE309)が含まれる。これらのPE間の通信は 313によって共用DRAM315とこれらのPE間の 通信が行われる。BEバス311の代わりに、BE30 1のPE間の通信は、DRAM315とこのメモリ接続 部とを介して行うことができる。

【0038】入力/出力(1/0)インターフェース31 7と外部バス319とは、広帯域エンジン301とネッ トワーク104のその他のメンバー間で通信を行う。B E301の各PEは、PEのAPUによって行われるア プリケーションとデータの並列的かつ独立した処理と同 様の並列的かつ独立した方法で、データとアプリケーシ 30 ョンの処理を実行する。

【()()39] 図4はAPUの構造を例示する図である。 APU402には、ローカル・メモリ406、レジスタ 4 1 0、4 つの浮動小数点演算ユニット 4 1 2 および 4 つの整数演算ユニット414が含まれる。しかし、こと でもまた、必要とする処理パワーに応じて、4個より多 少上下する個数の浮動小数点演算ユニット412と整数 演算ユニット414を用いてもよい。1つの好ましい実 施形態では、ローカル・メモリ406には128キロバ 8×128ビットである。浮動小数点演算ユニット41 2は、毎秒320億浮動小数点演算(32GLOPS)の 速度で好適に作動し、整数演算ユニット414は、毎秒 320億回の演算速度(32GOP)で好適に作動する。 【0040】ローカル・メモリ406はキャッシュ・メ モリではない。ローカル・メモリ406は、好適にはS RAMとして構成されることが望ましい。APUに対す るキャッシュ・コピーレンシー、つまりキャッシュの整 台性のサポートは不要である。PUでは、当該PUで関

ボートするためにキャッシュの整合性が要求される場合 もある。しかし、APUによって開始されるDMAに対 する。あるいは、外部装置からのおよび外部装置へのア クセスに対するキャッシュの整合性のサポートは不要で

20

[0041] APU402にはさらに、APUへおよび APUからアプリケーションとデータとを伝送するため のバス404が含まれる。1つの好ましい実施形態では このバスは1024ビットの幅を持つ。APU402に 1つの好ましい実施形態では、バス408は256ビッ トの帽を縛ち、ローカル・メモリ406とレジスタ41 ①間で通信を行う。バス420と418とは、それぞ れ、レジスタ410と浮動小数点演算ユニット412と の間、および、レジスタ410と整数演算ユニット41 4間で通信を行う。ある好ましい実施形態では、レジス タ410から浮動小数点演算コニット412または整数 演算ユニット414へのバス418と420の幅は、3 84 ピットであり、浮動小籔点演算ユニット412また BEバス311を介して行われる。広帯域メモリ銭続部 20 は整数演算ユニット414からレジスタ410へのバス 418と420の幅は128ビットである。浮動小数点 演算ユニット412または整数演算ユニット414から レジスタ410への幅より広い、レジスタ410から浮 動小籔点演算スニットまたは整数演算スニットへの上記 バスの広い幅によって、レジスタ410からのより広い データ・フローが処理中に許容される。最大3ワードが

各計算には必要となる。しかし、各計算の結果は、一般

に、ただ1ワードだけである。

【0042】図5~10は、ネットワーク104のメン - バーのプロセッサのモジュラー構造をさらに例示する図 である。例えば、図5に示すように、1つのプロセッサ には単一のPES02を含むことができる。上述のよう に、とのPEには、一般に、PU、DMACおよび8個 のAPUが含まれる。各APUにはローカル・ストレー ジ(LS)が含まれる。一方、プロセッサは、ビジュアラ イザ(VS)505の構造を有する場合もある。図5に示 すよろに、VSS05はPU512.DMAC514お よび4つのAPU(APU516, APU518, AP US20、APU522)を有する。PEのその他の4 イトの記憶容量が含まれ、レジスタ410の容量は12 40 つのAPUによって通常占有されるチップ・バッケージ 内のスペースは、この場合、ピクセル・エンジン5() 8. 画像用キャッシュ510およびブラウン管コントロ ーラ(CRTC)504によって占有される。PE502 またはVS505に求められる通信速度に応じて、チッ プ・バッケージの中に光インターフェース506が含ま れる場合もある。

【0043】との標準化されたモジュラー構造を用い て、多数の他のプロセッサの変更例を容易にかつ効率的 に構成することが可能となる。例えば、図6に示すプロ 始されるダイレクト・メモリー・アクセス(DMA)をサー50 セッサは、2つのチップ・バッケージ(BEを償えるチ

ップ・バッケージ602と、4つのVSを含むチップ・ バッケージ6()4)を育する。入出力部(!/O)6()6 によって、チップ・バッケージ602のBBとネットワ ーク104との間にインターフェースが設けられる。バ ス608はチップ・バッケージ602とチップ・バッケ ージ6()4との間の通信を行う。入出用プロセッサ(1) OP)610によってデータ・プローが制御され、!/ 0606へのまたは1/0606からの入出力が行われ る。I/O606はASIC (Application Specific I ntegrated Circit)として製造が可能である。VSから の出方はビデオ信号612である。

【0044】図7は、ネットワーク104のその他のメ ンバーへ超高速通信を行う2つの光インターフェース? 04と706とを備えたBE702用のチップ・バッケ ージ(またはローカルに接続された他のチップ・バッケ ージ)を倒示する。BE702は、ネットワーク104 上でサーバーなどとして機能することができる。

【()()45】図8のチップ・バッケージは、2つのPE 802及び804および2つのVS806及び808を 有する。[/0810は、チップ・バッケージとネット 20 ワーク104との間にインターフェースを与える。チッ ブ・バッケージからの出方はビデオ信号である。この標 成は画像処理用ワークステーションなどとして機能する ことができる。

【0046】図9はさらに別の構成を倒示する。この構 成は、図8に例示されている構成の処理パワーの1/2 を含む。2つのPEの代わりに1つのPE902が設け られ、2つのVSの代わりに1つのVS904が設けら れる。1/0906は、図8に例示されている1/0の 帯域幅の1/2の帯域幅を有する。またこのようなプロ セッサは、画像処理用ワークステーションとして機能す ることができる。

【()()47】最後の構成が図1()に図示されている。と のプロセッサは、単一のVS1002と1/01004 だけから構成される。この構成はPDAなどとして機能 することができる。

【0048】図11は、ネットワーク104のプロセッ サのチップ・バッケージの中への光インターフェースの 統合を例示する図である。とれらの光インターフェース によって、光信号は電気信号に変換され、電気信号は光 40 信号に変換される。また、これらの光インターフェース は、ガリウム砒素、アルミニウム・ガリウム砒素、ゲル マニウムその他の元素や化合物などを含む様々な材料か ち構成することができる。この図に示すように、光イン ターフェース1104と1106とはBE1102のチ ップ・バッケージの上に組み立てられる。BEバス11 08はBE1102のPE, すなわち, PE1110, PE1112, PE1114, PE1116880ch ちの光インターフェースとの間での通信を行う。光イン ターフェース1104には2つのボート(ボート111 50 したがって、DRAM1204は、合計64のバンクを

8とボート1120)が含まれ、また光インターフェー ス1106には2つのボート(ボート1122とボート 1124)が含まれる。ポート1118、1120、1 122、1124は、光導波路1126、1128、1 130、1132とそれぞれ接続される。光信号は、光 インターフェース1104と1106のボートを介し て、とれらの光導波器の中を通り、BE1102へおよ びBE1102から伝送される。

[ () () 4 9 ] とのような光導波路と各BEの4つの光ポ 10 ートとを用いて様々な構成において複数のBEをまとめ て接続してもよい。例えば、図12に示すように、この ような光ポートを介して2つまたはそれ以上のBE(B E1152、BE1154. BE1156など)を直列 に接続することができる。この例では、BE1152の 光インターフェース1166は、その光ポートを介しB E1154の光インターフェース1160の光ポートと 接続される。同様に、BEL154の光インターフェー ス1162の光ポートは、BE1156の光インターフ ェース1164の光ポートと接続される。

【0050】図13にマトリクス構成が例示される。こ の構成では、ABEの光インターフェースは2つの他の BEと接続される。この図に示すように、BE1172 の光インターフェース 1188の光ポートの中の1つ が、BE1176の光インターフェース1182の光ポ ートと接続される。光インターフェース1188のもう 一方の光ポートは、BB1178の光インターフェース 1184の光ポートと接続される。同様に、BEV17 4の光インターフェース 1 1 9 0 の 1 つの光ポートはB E1178の光インターフェース1184のもう一方の 光ポートと接続される。光インターフェース1190の もろ一方の光ポートは、BEll80の光インターフェ ース1186の光ポートと接続される。このマトリック ス構成は他のBEに対しても同様に拡張することができ

【0051】シリアル構成かマトリックス構成のいずれ かを用いて、任意の所望のサイズとパワーから成るネッ トワーク104用プロセッサの構成が可能となる。言う までもなく、BEの光インターフェースに対して、また は、BEよりPE数の少ないプロセッサに対して追加ボ ートを加えて、他の構成を形成してもよい。

【()()52】図14はBEのDRAMに対する副御シス テムと構造を例示する図である。同様の制御システムと 構造が、別のサイズを持ち、多少異なる数のPEを含む プロセッサの中で用いられる。この図に示すように、ク ロスバ交換機によって、BE1201を備える4つのP Eからなる各DMAC1210が8つのバンク・コント ロール1206と接続される。各バング・コントロール 1206によって、DRAM1204の8つのバンク1 2()8(4つだけしか図示されていない)が制御される。

具備することになる。好ましい実施形態では、DRAM 1204は64メガバイトの容置を持ち、各バンクは1 メガバイトの容量を待っている。各バンク内の最小のア ドレス指定可能単位は、この好ましい実施形態では10 24 ビットのブロックである。

23

[0053] BE1201にはスイッチ・ユニット12 12も含まれる。スイッチ・ユニット1212によっ て、BE1201と密接に接続されているBEの他のA PUのDRAM1204へのアクセスが可能となる。し たがって、第2のBEを第1のBEと密接に接続するこ 10 とが可能となり、さらに、善BEの著APUは、APU が通常アクセス可能なメモリ・ロケーションの数の2倍 のアドレス指定を行うことが可能となる。スイッチ・ユ エット1212のようなスイッチ・ユニットを介して、 第1のBEのDRAMから第2のBEのDRAMへのデ ータの直接読み出し、または、第2のBEのDRAMか ら第1のBEのDRAMへのデータの直接書き込みを行 うととが可能となる。

【0054】倒えば、図15に示すように、このような 書き込みを行うために、第1のBEのAPU(BE12 22のAPU1220など)によって、第2のBEのD RAM(通常の場合のようなBE1222のDRAM1 224 citat. BE1226 odr AM1228 a ど)のメモリ・ロケーションへの書き込みコマンドが出 される。BE1222のDMAC1230は、クロスバ 交換機1221を介して、バンク・コントロール123 4.へ書き込みコマンドを送り、バンク・コントロール1 234は、バング・コントロール1234と接続された 外部ポート1232ヘコマンドを伝送する。BE122 6のDMAC1238は書き込みコマンドを受け取り、 BE1226のスイッチ・ユニット1240へとのコマ ンドを転送する。スイッチ・ユニット1240は書き込 みコマンドの中に含まれるDRAMアドレスを識別し、 BE1226のバンク・コントロール1242を介し て、DRAM1228のパンク1244へ、DRAMア ドレス内に格納するデータを送る。したがって、スイッ チ・ユニット1240によって、DRAM1224とD RAM1228の双方は、BE1222のAPU用の学 ーメモリ空間として機能することが可能になる。

図示する。とれらのバンクは、8つの行(1302、1 304, 1306, 1308, 1310, 1312, 1 314、1316)と8つの列(1320、1322、1 324, 1326, 1328, 1330, 1332, 1 334)とで構成されている。各行は1つのバンク・コ ントローラによって制御される。したがって、各バンク コントローラは8メガバイトのメモリを制御する。 【0056】図17と18は、最小のアドレス指定可能 な絡納単位(1024ビットのブロックなど) でのDR

る。図17で、DMAC1402は単一のバンク140 4の中に8つの1024ビット・ブロック1406を格 納する。図18では、DMAC1412によって、10 2.4ビットを含むデータ・ブロックの読み出しと書き込 みが行われるものの、これらのブロックは、2つのバン ク(バンク1414とバンク1416)の間で分配され る。したがって、これらのバンクの各々には16個のデ ータ・ブロックが含まれ、データの各プロックには51 2ビットが含まれる。この分配によって、DRAMのア クセスをさらに高速なものに改善することが可能とな り、ある種のアプリケーションの処理に役立つ。 【0057】図19はPE内のDMAC1506のアー キテクチャを倒示する。この図に例示されているよう に、AAPU1502がDMAC1506の構造上のノ ード1504へ直接アクセスを行うように、DMAC1

506を含む構造上のハードウェアは全てのPEを通じ て配設される。各ノードは、ノードが直接アクセスを行 う対象のAPUによるメモリ・アクセスに適した論理処 選を実行する。 29 [0058] 図20はDMACの他の実施形態。 すなわ ち、非分配型アーキテクチャを図示する。この場合、D

MAC1606の構造上のハードウェアは集中型であ る。APU1602とPU1604は、ローカルPEバ ス1607を介してDMAC1606を用いて通信を行 う。DMAC1606はクロスバー・スイッチを介して バス1608と銭続される。バス1608はDRAM1 610と接続されている。

【0059】上述のように1つのPEの複数のAPUの すべては、独立に、共用DRAM内のデータへのアクセ 30 スが可能である。その結果、第1のAPUがあるデータ をそのローカル・ストレージで処理しているときに、第 2のAPUがとれらのデータを要求する場合もある。そ の時点で共用DRAMから第2のAPUへ当該データが 出力された場合。データの値を変化させ得る第1のAP Uの進行中の処理に起因して、そのデータが無効になる 場合がある。したがって、その時点で第2のプロセッサ が共用DRAMからデータを受け取った場合、第2のブ ロセッサでエラー結果が生じるおそれがある。例えば、 このようなデータとしては、グローバル変数用の具体的 【0055】図16はDRAMの64個のバンク構成を 49 な値が挙げられる。第1のプロセッサがその処理中その 値を変えた場合。第2のプロセッサはもう使用されてい ない値を受け取ることになる。したがって、共用DRA Mの範囲内でメモリ・ロケーションからのおよびメモリ ・ロケーションへのAPUによるデータの読み出しと書 き込みを同期させる何らかの方式が必要となる。この方 式では、別のAPUがそのローカル・ストレージで現在 働きかけている対象データであって、したがって最新の ものではないデータのメモリ・ロケーションからの読み 出しと、最新のデータを絡納するメモリ・ロケーション AMの格納とアクセスを行うための異なる構成を例示す 50 の中へのデータの書き込みと、を行わないようにする必

要がある。

【①〇60】とれらの問題を解決するために、DRAM の各アドレス指定が可能なメモリ・ロケーションに対し て、そのメモリ・ロケーションの中に格納されているデ ータに関連する状態情報を格納するために、DRAMの 中でメモリの追加セグメントの割り振りが行われる。こ の状態情報の中には、フルノエンプティ(F/E)ビット と、メモリ・ロケーションからデータを要求するAPU の識別子(APU ID)と、要求されたデータを読み出 ず読み出し先となるAPUのローカル・ストレージのア 10 ドレス(USアドレス)とが含まれる。DRAMのアドレ ス指定が可能なメモリ・ロケーションは任意のサイズと することができる。ある好ましい実施形態ではこのサイ ズは1024ビットである。

25

【0061】F/Eピットの1への設定は、メモリーロ ケーションに絡納されているデータが最新のものである ことを示す。一方、F/Eピットのりへの設定は、関連 するメモリ・ロケーションに格納されたデータが最新の ものではないことを示す。このビットがりに設定されて よってそのデータの即時読み出しは妨げられる。との場 台、そのデータを要求しているAPUを識別するAPU 【 Dと、データが最新のものになっているとき、その。 データを読み出す読み出し先となるこのAPUのローカ ル・ストレージ内のメモリ・ロケーションを識別するし Sアドレスとが、追加メモリ・セグメントの中へ入力さ

【0062】また追加メモリ・セグメントは、APUの ローカル・ストレージ内の各メモリ・ロケーションに対 して割り緩られる。この追加メモリ・セグメントは、 "ビジー・ビット"と呼ばれる1ピットを格納する。こ のビジー・ビットは、DRAMから検索される固有デー タの絡納用として関連するLSメモリ・ロケーションの 予約を行うために使用される。ローカル・ストレージ内 の特定のメモリ・ロケーションに対してビジー・ビット が」に設定されている場合。これらの固有データの書き 込み用としてのみAPUはこのメモリ・ロケーションを 使用することができる。一方、ビジー・ビットが、ロー カル・ストレージ内の特定のメモリ・ロケーションに対 してりに設定されている場合、APUは、任意のデータ 40 の書き込み用としてこのメモリ・ロケーションを使用す るととができる。

【0063】F/Eピット、APU ID、LSアドレ スおよびビジー・ビットが、PEの共用DRAMから の、および、PEの共用DRAMへのデータの読み出し と書き込みを同期させるために使用される方法を示す例 が図21-35に例示されている。

【0064】図21に示すように、1以上のPE(PE 1720など)がDRAM1702を使用する。PE1

る。APU1722には制御論理回路1724が含ま れ、APU1740には制御論理回路1742が含まれ る。APU1722にはローカル・ストレージ1726 も含まれる。とのローカル・ストレージには複数のアド レス可能なメモリ・ロケーション1728が含まれる。 APU1740にはローカル、ストレージ1744が含 まれ、このローカル・ストレージにも複数のアドレス可 能なメモリ・ロケーション1746が含まれる。 これら のアドレス可能なメモリ・ロケーションのすべては好適

にはサイズが1024ビットであることが望ましい。 【0065】メモリの追加セグメントは各LSのアドレ ス可能なメモリ・ロケーションと関連付けられる。例え は、メモリ・セグメント1729と1734とはそれぞ れ、ローカルなメモリ・ロケーション1731と173 2 とに関連付けられ、メモリ・セグメント1752はロ ーカルなメモリ・ロケーション1750と関連付けられ る。上述のような"ビジー・ビット" はこれらの追加 メモリ・セグメントの各々の中に格納される。ローカル なメモリ・ロケーション1732は、このメモリ・ロケ いるとき、APUがそのデータを要求しても、APUに 20 ーションがデータを含むことを示すいくつかの×印を用 いて示されている。

> 【0066】DRAM1702には、メモリ・ロケーシ ョン1706と1708とを含む複数のアドレス可能な メモリ・ロケーション1704が含まれる。これらのメ モリ・ロケーションは、好適にはサイズが1024ビッ トであることが望ましい。メモリの追加セグメントはま たとれらのメモリ・ロケーションの基々とも関連付けら れる。例えば、追加メモリ・セグメント1760はメモ リ・ロケーション1706と関連し、追加メモリ・セグ 30 メント1762はメモリ・ロケーション1708と関連 付けられる。各メモリ・ロケーションに格納されるデー タに関連する状態情報は、メモリ・ロケーションと関連 付けられたメモリ・セグメントに格納される。この状態 情報の中には、上述のように、F/Eビット、APU I DおよびLSアドレスが含まれる。例えば、メモリ・ ロケーション1708については、この状態情報にはF /Eピット1712、APU ID1714およびLS アドレス1716が含まれる。

【0067】この状態情報とビジー・ビットとを用い て、PEのAPU、または1グループのPE間での、共 用DRAMからの、および、同期した共用DRAMから の読み出しと、同期した共用DRAMへのデータの書き 込みを行うことができる。

【0068】図22はAPU1722のLSメモリ・ロ ケーション1732から、DRAM1702のメモリ・ ロケーション1708へのデータの同期書き込みの開始 を例示する図である。APU1722の制御論理回路1 724によってとれらのデータの同期書き込みが開始さ れる。メモリ・ロケーション1708がエンプティであ 720にはAPU1722とAPU1740とが含まれ 50 るため、F/Eピット1712は0に設定される。その

結果、メモリ・ロケーション1708の中へLSメモリ ロケーション1732内のデータを書き込むことが可 能となる。一方、このビットが1に設定されていて、メ モリ・ロケーション1708がフル状態であり、最新の 有効データを含むことが示されている場合、制御回路1 722はエラー・メッセージを受け取ることになり、こ のメモリ・ロケーションへのデータの書き込みは禁止さ れる。

27

【0069】メモリ・ロケーション1708への成功し たデータの同期書き込みの結果が図23に示されてい る。この書き込まれたデータはメモリ・ロケーション! 7()8の中に絡納され、F/Eピット1712は1に設 定される。この設定によって、メモリ・ロケーション1 708がフル状態であること、および、このメモリ・ロ ケーションの中のデータが最新の有効データであること が示される。

【0070】図24は、DRAM1702のメモリ・ロ ケーション1708からローカル・ストレージ1744 のLSメモリ・ロケーション1750へのデータの同期 読み出しの開始を例示する図である。この読み出しを開 20 始するために、LSメモリ・ロケーション1750のメ モリ・セグメント1752の中のビジー・ビットが1に 設定されて、上記データ用としてこのメモリ・ロケーシ ョンが予約される。このビジー・ビットを1に設定する ことによって、APU1740がこのメモリ・ロケーシ ョンに他のデータを格納することはなくなっている。

【0071】図25に示すように、制御論理回路174 2は次にDRAM1702のメモリ・ロケーション17 () 8 に対して同期読取りコマンドを出す。このメモリ・ ロケーションと関連付けられるF/Eピット1712は 30 1に設定されているので、メモリ・ロケーション170 8の中に格納されたデータは最新の、有効データである と見なされる。その結果、メモリ・ロケーション 170 8からLSメモリ・ロケーション1750へのデータ転 送の準備の際に、F/Eビット1712は()に設定され る。この設定が図26に示されている。このピットを() に設定されているというととは、これらのデータの読み 出しの後に、メモリ・ロケーション1708のデータは 無効になることを示す。

【0072】図27に示すように、メモリ・ロケーショ 40 ン1708内のデータは、次に、メモリ・ロケーション 1708からしSメモリ・ロケーション1750へ読み 出される。図28は最終状態を示す図である。メモリ・ ロケーション1708のデータのコピーはLSメモリー ロケーション1750に格納される。F/Bビット17 12は0に設定され、メモリ・ロケーション1708の データが無効であることが示される。この無効は、AP U1740によって行われた上記データの変更の結果で ある。メモリ・セグメント1752内のビジー・ビット もまた()に設定される。この設定によって、APU17 50 データになる。したがって、メモリ・セグメント176

40がLSメモリ・ロケーション1750を任意の目的 に利用できるとと、すなわち、このLSメモリ・ロケー ションがもはや固有データの受信を待機している予約状 懲ではないことが示される。したがって、任意の目的の ためにAPU1740によるLSメモリ・ロケーション 1750へのアクセスが可能となる。

【0073】閏29~図35には、DRAM1702の メモリ・ロケーション用のF/Eビットが、0に設定さ れていて、このメモリ・ロケーションのデータが最新の 10 ものでもなく有効なものでもないことが示されている場 台の、DRAM1702(メモリ・ロケーション170 8など)のメモリ・ロケーションから、APUのローカ ル・ストレージ(ローカル・ストレージ1744のLS ヌモリ・ロケーション1752など)のLSメモリ・ロ ケーションへのデータの同期読み出しが例示されてい る。図29に示すように、この転送を開始するために、 LSメモリ・ロケーション1750のメモリ・セグメン ト1752内のビジー・ビットは1に設定され、このデ ータ転送用としてこのLSメモリ・ロケーションが予約 される。図30に示すように、制御論理回路1742 は、次に、DRAM1702のメモリ・ロケーション1 708に対して同期読取りコマンドを出す。このメモリ ・ロケーションと関連付けられたF/Eビット(F/E ピット1712)は()に設定されているので、メモリ・ ロケーション1708に格納されているデータは無効で ある。その結果、信号は制御論理回路1742へ伝送さ れ、とのメモリ・ロケーションからのデータの即時読み 出しが阻止される。

【0074】図31に示すように、APU ID171 4とこの該取りコマンド用のLSアドレス1716とは メモリ・セグメント1762の中へ書き込まれる。この 場合、APU1740用のAPU 【Dと、LSメモリ ロケーション1750用のLSメモリ・ロケーション とはメモリ・セグメント1762の中へ書き込まれる。 したがって、メモリ・ロケーション1708の範囲内の データが最新のものになっているとき、このAPV! DとLSメモリ・ロケーションは、最新のデータを伝送 する伝送先のメモリ・ロケーションを決定するために使 用される。

【0075】メモリ・ロケーション1708内のデータ は、APUがこのメモリ・ロケーションの中へデータを 書き込むと、有効で最新のデータとなる。APU172 2のメモリ・ロケーション1732などかちメモリ・ロ ケーション17()8の中へのデータの同期書き込みが図 29に例示されている。このメモリ・ロケーション用の F/Eビット1712が0に設定されているため、これ ちのデータのとの同期書き込みは許される。

【0076】図33に示すように、この書き込み後、メ モリ・ロケーション1708の中のデータは最新の有効

2から得られるAPUID1714とLSアドレス17 16とは、メモリ・セグメント1762から即座に読み 出され、次いでこの情報はこのセグメントから削除され る。メモリ・ロケーション1708の中のデータの即時 読み出しを予期して、F/Eピット1712もまたりに 設定される。図34に示すように、APU 【D171 4とLSアドレス1716とを読み出すと、APU17 40のLSメモリ・ロケーション1750ヘメモリ・ロ ケーション1708内の育効データを読み出すためにと の情報は直ちに使用される。最終状態が図35に図示さ れている。この図は、メモリ・ロケーション1708か ちメモリ・ロケーション1750ヘコピーされた有効デ ータと、()に設定されたメモリ・セグメント1752内 のビジー・ビットと、0亿設定されたメモリ・セグメン ト1762内のF/Eビット1712とを図示する。と のビジー・ビットの()への設定によって、任意の目的の ためにAPU1740がしSメモリ・ロケーション17 50のアクセスを行うことが可能になる。このF/Eビ ットの()への設定によって、メモリ・ロケーション17 0.8内のデータがもはや最新のものでもなく、有効なも 20 のでもないことが示される。

29

【0077】図36は、上述のオペレーションと、DR AMのメモリ・ロケーションの様々な状態とを要約する 図であり、この状態は、F/Eピットの状態と、APU 【 Dと、メモリ・ロケーションに対応するメモリ・セ グメントの中に絡納されたしSアドレスとに基づく。こ のメモリ・ロケーションは、3つの状態を持つことが可 能である。これらの3つの状態として、F/Eビットが Oに設定され、APUIDまたはLSアドレスに対して 情報が提供されないエンプティ状態1880と、F/E 30 ビットが1に設定され、APU IDまたはLSアドレ スに対して情報が提供されないフル状態1882と、F /Eピットが0に設定され、APUIDとLSアドレス に対して情報が提供されるブロッキング状態1884と がある。

【0078】との図に示すように、エンプティ状態18 80では、同期書き込みオペレーションが許され、フル 状態1882への達移という結果が得られる。しかし、 メモリ・ロケーションがエンプティ状態であるときはメ で、同期読み出しオペレーションに対しては、ブロッキ ング状態1884へ選移するという結果となる。

【0079】フル状態1882では、同期読み出しオペ レーションが許され、エンプティ状態1880への選移 という結果が得られる。一方、有効データの上書きを避 けるために、フル状態1882の同期書き込みオペレー ションは禁止される。このような書き込みオペレーショ ンがこの状態で試みられる場合、状態の変化は生じず、 エラー・メッセージがAPUの対応する制御論理回路へ 伝送される。

【0080】プロッキング状態1884では、メモリ・ ロケーションの中へのデータの同期書き込みが許され、 エンプティ状態1880への遷移という結果が得られ る。一方、プロッキング状態1884での同期読み出し オペレーションは禁止される。このブロッキング状態を 生じさせることとなった前回同期読み出しオペレーショ ンとのコンプリクトを阻止するためである。同期読み出 しオペレーションが、ブロッキング状態1884で試み られた場合、状態変化は生じないでAPUの対応する制 御論理回路へエラー・メッセージが伝送される。

【0081】共用DRAMからのデータの同期読み出し と、共用DRAMへのデータの同期書き込みを行う上述 の方式は、外部装置からのデータ読み出しと外部装置へ のデータ書き込み用プロセッサとして通常専用の計算用 リソースを取り除くためにも利用が可能である。この入 出方(!/O)機能はPUによって行うこともできる。し かし、この同期方式の変更を利用して、適切なブログラ ムを実行するAPUがこの機能を実行してもよい。例え ば、この方式を利用して、外部装置によって開始され た、1/0インターフェースからのデータ伝送を求める 割込み要求を受け取るPUは、このAPUにこの要求の 処理を委任してもよい。次いで、APUは!/Oインタ ーフェースに対して同期書き込みコマンドを出す。今度 はこのインターフェースによって、現在DRAMの中へ データを書き込むことができる旨の信号が外部装置へ送 られる。次にAPUはDRAMに対して同期読取りコマ ンドを出し、DRAMの関連するメモリ空間をブロッキ ング状態に設定する。APUはまた、データを受け取る 必要があるAPUのローカル・ストレージのメモリ・ロ ケーションに対してビジー・ビットを1に設定する。ブ ロッキング状態では、DRAMの関連するメモリ空間と 関連付けられた追加メモリ・セグメントの中に、APU のIDとAPUのローカル・ストレージの関連するメモ リ・ロケーションのアドレスが含まれる。次に外部装置 は同期書き込みコマンドを出し、DRAMの関連するメ モリ空間へデータが直接書き込まれる。このメモリ空間 はブロッキング状態にあるので、データは、このスペー スの中から、追加メモリ・セグメントの中で識別された APUのローカル・ストレージのメモリ・ロケーション モリ・ロケーション内のデータが最新のものではないの 40 の中へ直ちに読み出される。次いで、これちのメモリ・ ロケーション用のビジー・ビットはりに設定される。外 部装置がデータの書き込みを完了したとき、APUは、 伝送が完了した旨を示す信号をPUへ出す。

> 【0082】したがって、この方式を用いて、PUに対 する最小の計算上の負荷で、外部装置からのデータ転送 処理を行うことができる。しかし、この機能を委任され たAPUはPUに対して割込み要求を出せることが望ま しく、外部装置がDRAMに対して直接アクセスを行う ことが望ましい。

【0083】 APEのDRAMには複数の「サンドボッ

【0084】PEのPUはAPUへ割り当てられるサン ドボックスの制御を行う。PUは、オペレーティング・ システムのような信頼のおけるプログラムだけしか通常 作動させないので、本方式によってセキュリティが危険 にさらされることはない。本方式に従って、PUはキー 20 管理テーブルの構築と維持とを行う。 図37にこのキー 管理テーブルが例示されている。この図に示すように、 キー管理テーブル1902内の各エントリには、APU 用の識別子 (ID)1904と、そのAPU用のAPU キー1906と、キー・マスク1908とが含まれる。 このキー・マスクの用途について以下説明する。キー管 **弾デーブル1902は、スタティック・ランダム・アク** セス・メモリ(SRA)のような比較的高速のメモリに好 適に絡納され、DMACと関連付けられる。キー管理テ ープル1902へのエントリはPUによって制御され る。APUが、DRAMの特定の格納位置(ストレージ ロケーション) へのデータの書き込みあるいはDRAM の特定の格納位置からのデータの読み出しを要求する と、DMACは、その格納位置と関連付けられたメモリ ・アクセス・キーに対して、キー管理テーブル1902 内のそのAPUへ割り当てられたAPUキー1906の 評価を行う。

【0085】図38に示すように、DRAM2002の各アドレス可能な格納位置2006に対して専用メモリ・セグメント2010が割り当てられる。この格納位置40用のメモリ・アクセス・キー2012はこの専用メモリ・セグメントの中に格納される。上述のように、やはり各アドレス可能な格納位置2006と関連付けられたさらなる追加専用メモリ・セグメント2008によって、格納位置へのデータ書き込みと、格納位置からのデータの読み出しを行うための同期情報が格納される。

におけるAPUのID1904を用いて要求を行っているAPUのキー1906を調べる。次いで、DMACは、APUがアクセスを求める対象先であるDRAMの格納位置と関連付けられた専用メモリ・セグメント2010内に格納されているメモリ・アクセス・キー2012と、要求を行っているAPUのAPUキー1906との比較を行う。2つのキーが一致しない場合、DMAコマンドは実行されない。一方、2つのキーが一致した場合、DMAコマンドは進行し、要求されたメモリ・アクセスが実行される。

【0087】図39に他の実施形態の一例を示す。この 砂では、PUはメモリ・アクセス管理テーブル2102 の維持も行う。メモリ・アクセス管理テーブル2102 にはDRAM内にある各サンドボックス用のエントリが 含まれる。図39の特定の例では、DRAMには64個 のサンドボックスが含まれる。メモリ・アクセス管理テ ープル2102内の各エントリには、サンドボックス用 識別子(ID)2104と、ベース・メモリ・アドレス2 106と、サンドボックス・サイズ2108と、メモリ ・アクセス・キー2110と、アクセス・キーマスク2 110とが含まれる。ペース・メモリ・アドレス210 6によって、DRAM内にアドレスが設けられ、このア ドレスによって特定のメモリ・サンドボックスの最初の 部分が示される。サンドボックス・サイズ2108によ ってサンドボックスのサイズが与えられ、したがって、 このサイズによって特定のサンドボックスのエンドボイ ントが与えられる。

【0088】図40は、キー管理テーブル1902とメ モリ・アクセス管理テーブル2102とを用いてDMA 30 コマンドを実行するためのステップを示すフロー・チャ ートである。ステップ2202では、APUによって、 サンドボックス内の特定の一つあるいは復数のメモリ・ ロケーションに対するアクセス用DMAコマンドがDM ACへ出される。このコマンドには、アクセス要求を行 う対象先である特定のサンドボックスの識別を行うサン ドボックス | D2104が含まれる。ステップ2204 では、DMACは、APUのID1904を利用して、 キー管理テーブル1902内の要求を行っているAPU のキー1906を調べる。ステップ2206で、DMA Cは、メモリ・アクセス管理テーブル2102で、サン ドボックスと関連付けられたメモリ・アクセス・キー2 110を調べるコマンドで、サンドボックス | D210 4を利用する。ステップ2208で、DMACは、要求 を行っているAPUへ割り当てられているAPUキー1 906をサンドボックスと関連付けられたアクセス・キ ー2110と比較する。ステップ2210で、この2つ のキーが一致するかどうかの決定が行われる。この2つ のキーが一致しない場合、処理はステップ2212へ移 行し、そとでDMAコマンドは先へ進まず、要求を行っ

・メッセージが送信される。一方、ステップ2210 で、2つのキーの一致が得られた場合、処理はステップ 2214へ進み、そこでDMACはDMAコマンドを実 行する。

33

【0089】APUキー用およびメモリ・アクセス・キ 一用のキー・マスクによってこのシステムに大きな柔軟 性が与えられる。キー用のキー・マスクによって、マス クされたビットはワイルド・カードに変換される。例え は、APUキー1906と関連付けられたキー・マスク を上に設定することなどにより、その最後の2ビットが "マスク"に設定されている場合、APUキーは 1また は)のいずれかになることができ、そのままメモリ・ア クセス・キーに一致することになる。例えば、APUキ 一が1010であるとする。通鴬、このAPUキーによ って1010のアクセス・キーを持つサンドボックスへ のアクセスだけが可能になる。しかし、このAPUキー 用のAPUキー・マスクが0001に設定されている場 台、このAPUキーを用いて1010または1011の クセスを行うことが可能となる。同様に、1010また は1011のいずれかのAPUキーを持つAPUによっ て、0001に設定されたマスクを持つアクセス・キー 1010のアクセスを行うことが可能である。APUキ ー・マスクとメモリ・キー・マスクの双方を同時に使用 することができるので、多数のバリエーションのサンド ボックスに対するAPUによるアクセシビリティの設定 が可能となる。

【0090】また本発明はシステム101のプロセッサ 用の新しいプログラミング・モデルも提供するものである30 8と、前回のセルの1D2330とが含まれる。 る。このプログラミング・モデルではソフトウェア・セ ル102が用いられる。ネットワーク104上の任意の プロセッサへ処理用としてこれらのセルの伝送を行うこ とが可能である。またこの新しいプログラミング・モデ ルでは、システム101のユニークなモジュラー形アー キテクチャと、システム101のプロセッサとが利用さ れる。

【0091】ソフトウェア・セルはAPUのローカル・ ストレージからAPUによって直接処理される。APU しても直接働きかけることは行わない。DRAM内のデ ータとプログラムは、APUがこれらのデータとプログ ラムの処理を行う前に、APUのローカル・ストレージ の中に読み込まれる。したがって、APUのローカル・ ストレージには、プログラム・カウンタと、スタック と、これらのプログラムを実行するための他のソフトウ ェア・エレメントとが含まれることになる。PUは、D MACに対してDMAコマンドを出すことによりAPU の制御を行う。

【0092】ソフトウェア・セル102の構造が図41~50~されるプログラム("アプレット" と呼ばれる)が含ま

に倒示されている。この図に示すように、ソフトウェア ・セル2302などのソフトウェア・セルの中には、ル ート選定情報セクション2304と本体部分2306と が含まれる。ルート選定情報セクション2304に含ま れる情報は、ネットワーク104のプロトコルに依って 決められる。ルート選定情報セクション2304の中に は、ヘッダ2308、宛先ID2310、ソースID2 312および応答 I D 2 3 1 4 が含まれる。宛先 I D に はネットワーク・アドレスが含まれる。TCP/IPプ 1908が、キー・マスク1908内のこれらのビット 10 ロトコルの下で、例えば、ネットワーク・アドレスはイ ンターネット・プロトコル( i P)アドレスである。さら に宛先!D2310には、処理のためにセルを伝送すべ き伝送先のPE及びAPUの識別子が含まれる。ソース 1 D 2 3 1 4 にはネットワーク・アドレスが含まれ、こ のソースIDによってPEとAPUとが識別され、この PEとAPUとからセルが超動し、必要な場合に、宛先 PEとAPUとがセルに関する追加情報を得ることが可 能となる。応答ID2314にはネットワーク・アドレ スが含まれ、この応答 | D2314によって、セルに関 いずれかのアクセス・キーを持つサンドボックスへのア 20 するクエリとセルの処理の結果とを送る送り先のPEと APUとが識別される。

> 【0093】セルの本体部分2306にはネットワーク のプロトコルとは無関係の情報が含まれる。図41の分 解部分はセルの本体部分2306の細部を図示する。セ ルの本体部分2306のヘッダ2320によってセル本 体の開始部が識別される。セル・インターフェース23 22にはセルの利用に必要な情報が含まれる。 この情報 の中には、グローバルな一意的!D2324と、要求さ れるAPU2326と、サンドボックス・サイズ232

【0094】グローバルな一意的!D2324によっ て、ネットワーク104全体を通じてソフトウェア・セ ル2302が一意的に識別される。グローバルな一意的 ID2324が、ソースID2312(ソースID23 12内のPBまたはAPUの一意的識別子など)と、ソ フトウェア・セル2302の作成または伝送の時刻と日 付とに基づいて作成される。必要なAPU2326によ ってセルの実行に必要な最低数のAPUが与えられる。 サンドボックス・サイズ2328によって、セルの実行 は、DRAM内のいずれのデータまたはプログラムに対 40 に必要なDRAMと関連する必要なAPU内に、保証さ れたメモリ量が与えられる。前回のセルID2330に よって、シーケンシャルな実行を要求する1グループの セル(ストリーミング・データなど)内の前回のセルの識 別子が提供される。

> 【0095】実行セクション2332の中にはセルのコ ア情報が含まれる。この情報の中にはDMAコマンド・ リスト2334と、プログラム2336と、データ23 38とが含まれる。プログラム2336には、APUプ ログラム2360と2362などのAPUによって実行

れ、データ2338にはこれらのプログラムを用いて処 理されるデータが含まれる。DMAコマンド・リスト2 334には、プログラムの起動に必要な一連のDMAコ マンドが含まれる。これらのDMAコマンドにはDMA コマンド 2340、2350、2355、2358が 含まれる。PUはDMACへこれらのDMAコマンドを 出す。

35

[0096] DMAコマンド2340にはVID234 2が含まれる。VID2342は、DMAコマンドが出 ーチャルIDである。DMAコマンド2340にはロー ド・コマンド2344とアドレス2346も含まれる。 ロード・コマンド2344は、APUにDRAMから特 定の情報を読み出しローカル・ストレージの中へ入れる ように命令する。アドレス2346によってこの特定情 報を含むDRAM内のバーチャル・アドレスが与えられ る。との特定情報は、プログラム、セクション2336 からのプログラムや、データ・セクション2338から のデータや、あるいはその他のデータなどであってもよ ストレージのアドレス2348が含まれる。このアドレ スによって、情報をロードできそうなローカル・ストレ ージのアドレスが識別される。DMAコマンド2350 には類似の情報が含まれる。その他のDMAコマンドも 使用可能である。

【0097】DMAコマンド・リスト2334には一連 のキック・コマンド(キック・コマンド2355と23 58など)も含まれる。キック・コマンドとは、PUに よってAPUへ出されるセルの処理を開始するコマンド ャルAPU ID2352と、キック・コマンド235 4と、プログラム・カウンタ2356とが含まれる。バ ーチャルAPU ID2352はキックすべき対象AP Uを識別し、キック・コマンド2354は関連するキッ ク・コマンドを与え、プログラム・カウンタ2356 は、プログラムの実行用プログラム・カウンタのための アドレスを与える。DMAキック・コマンド2358 は、同じAPUまたは別のAPUに対して同様の情報を

【①①98】上述したように、PUは独立したプロセッ サとしてAPUを扱い、コブロセッサとして扱うもので はない。したがって、APUによる処理を制御するため に、PUは、遠隔手順呼出しに類似したコマンドを使用 する。これらのコマンドは「APU遠隔手順呼出し(A RPC)"と呼ばれる。PUは、一連のDMAコマンド をDMACへ出すことによりARPCを実行する。DM ACは、APUプログラムとそれと関連するスタック・ フレームとをAPUのローカル・ストレージの中へロー 下する。次いで、PUはAPUへ最初のキックを出し、 APUプログラムを実行する。

【① ① 9 9 】 図 4 2 は、アプレットを実行するためのA RPCのステップを例示する。指定APUによるアプレ ットの処理の開始時にPUが実行するこれらのステップ が、図42の第1の部分2402に示され、指定APU が実行するステップが、図42の第2の部分2404に 示されている。

36

[0]00]ステップ24]0で、PUはアプレットを 評価し、次いで、アプレットの処理用APUを指定す る。ステップ2412で、PUは、必要な単復のサンド されたとき物理IDに対して対応づけられるAPUのバ 10 ボックス用のメモリ・アクセス・キーの設定を行うDM AコマンドをDMACへ出すことにより、アプレットの 実行用スペースをDRAM内に割り振る。ステップ24 14で、PUは、指定APUへの割込み要求による、ア ブレットの完了信号の伝送を可能にする。ステップ24 18で、PUは、DRAMからAPUのローカル・スト レージへアプレットをロードするDMAコマンドをDM ACへ出す。ステップ2420で、DMAコマンドが実 行され、アプレットがDRAMからローカル・ストレー ジへ読み出される。ステップ2422で、PUは、アブ い。最終的に、DMAコマンド2340にはローカル・ 20 レットと関連付けられたスタック・プレームをDRAM からAPUのローカル・ストレージへロードするDMA コマンドをDMACへ出す。ステップ2423で、DM Aコマンドが実行され、スタック・フレームがDRAM からAPUのローカル・ストレージへ読み出される。ス テップ2424で、PUは、DMACがAPUへキーを 割り当てて、スチップ2412で指定された、一又は復 数のハードウェア・サンドボックスからのデータ読み出 しと、その一又は複数のハードウェア・サンドボックス へのデータ書き込みを行うことをAPUに許可するDM である。DMAキック・コマンド2355には、バーチ 30 Aコマンドを出す。ステップ2426で、DMACは、 APUへ割り当てられたキーを用いてキー管理テーブル (KTAB)の更新を行う。ステップ2428で、PU は、プログラムの処理を開始するDMAコマンド "キッ ク"をAPUへ出す。特定のアプレットに応じて、特定 のARPCの実行時にPUによって他のDMAコマンド を出してもよい。

【1) 1 () 1 】上記のように、図42の第2の部分24() 4は、アプレットの実行時にAPUによって行われるス テップを例示するものである。ステップ2430で、A 40 PUは、ステップ2428で出されるキック、コマンド に応じてアプレットの実行を開始する。ステップ243 2で、アブレットの指示で、APUは、アブレットの関 進スタック・プレームの評価を行う。ステップ2434 で、APUは、DMACへ複数のDMAコマンドを出 し、スタック・プレームが必要に応じてDRAMからA PUのローカル・ストレージへ指定するデータのロード を行う。ステップ2436で、これらのDMAコマンド が実行され、データは、DRAMからAPUのローカル ・ストレージへ読み出される。ステップ2438でAP 50 Uはアプレットを実行し、ある結果を出力する。ステッ

プ2440で、APUはDMACへDMAコマンドを出 し、DRAMにその結果を絡納する。ステップ2442 で、DMAコマンドが実行され、アプレットの結果がA PUのローカル・ストレージからDRAMへ書き込まれ る。ステップ2444で、APUはPUへ割込み要求を 出し、ARPCが完了したことを示す信号伝送を行う。 【0102】PUの指示の下で独立にタスクを実行する APUの能力によって、1グループのAPUと、1グル ープのAPUと関連付けられたメモリ・リソースとを拡 張タスクの実行専用にすることが可能になる。例えば、 1つのPUは、1以上のAPUと、これらの1以上のA PUと関連付けられた1グループのメモリザンドボック スとを、拡張された時間中ネットワーク104を介して 伝送されてくるデータの受信専用とし、また、1以上の 他のAPUとそれらと関連付けられたメモリ・サンドボ ックスへ、この時間中受信したデータのさらなる処理を 行うための送信専用とすることができる。この能力は、 ネットワーク104を介して伝送されるストリーミング ・データ(ストリーミングMPEGまたはストリーミン グATRACオーディオまたはビデオ・データなど)の 処理にとって特に好適である。PUは、1以上のAPU およびそれらと関連付けられたメモリ・サンドボックス をこれらのデータの受信専用とし、1以上の他のAPU およびそれらと関連付けられたメモリ・サンドボックス をこれらのデータの解凍と処理専用とすることができ る。言い換えれば、PUは、APUのグループとそれら と関連付けられたメモリ・サンドボックスとの間でこの ようなデータ処理を行うための専用バイブライン関係の 確立を行うことができる。

37

るためには、バイブ・ラインの専用APUとメモリサン ドボックスとが、データ・ストリームを含むアプレット の処理が行われない時間中もバイブ・ライン専用のまま であることが望ましい。言い換えれば、専用APUおよ びそれらと関連するサンドボックスが、これらの時間中 予約状態のままに置かれることが望ましい。アプレット の処理の完了時における。APUとその関連付けられた 一又は複数のメモリ・サンドボックスを予約、即ちリザ ープ状態としておくことは、「鴬駐終了」と呼ばれる。 宮駐終了はPUからの命令に応じて行われる。

【0104】図43、44、45は、1グループのAP **Uおよびそれらと関連するサンドボックスを含む、スト** リーミング・データ(ストリーミングMPEGデータな と)を処理するための専用パイプライン構造の設定を例 示する。図43に示すように、このバイプライン構造の 機成要素にはPE2502とDRAM2518とが含ま れる。PE2502の中には、PU2504、DMAC 2506およびAPU2508、APU2510、AP U2512を含む複数のAPUが含まれる。PU250 4. DMAC2506およびこれらのAPU間の通信は 50 ーク・アプレットを処理し、そのローカル・ストレージ

PEバス2514を介して行われる。広帯域幅のバス2 516によってDMAC2506はDRAM2518と 接続される。DRAM2518の中には、複数のサンド ボックス(サンドボックス2520)、サンドボックス2 522、サンドボックス2524、サンドボックス25 26など)が含まれる。

【0105】図44に、専用パイプラインを設定するた めのステップを例示する。ステップ2610で、PU2 504は、ネットワーク・アプレットを処理するように 10 APU2508を割り当てる。ネットワーク・アブレッ 上は、ネットワーク104のネットワーク・プロトコル の処理用プログラムを有する。この場合、このプロトコ ルは 伝送制御プロトコル/インターネット用プロトコ ル(TCP/IP)である。このプロトコルに従うTCP **/IPデータ・パケットはネットワーク104を介して** 伝送される。受信時に、APU2508はこれらのパケ ットを処理し、パケット内のデータを組み立て、ソフト ウェア・セル102の中へ入れる。ステップ2612 で、PU2504は、ネットワーク・アプレットの処理 20 の完了時に鴬駐終了を実行するようにAPU2508に 指示する。ステップ2614で、PU2504は、AP U2510及び2512がMPEGアプレットの処理を 行うように割り当てる。ステップ2615で、PU25 ①4は、MPEGアプレットの処理の完了時に常駐終了 を実行するようにAPU2510及び2512に指示す る。ステップ2616で、PU2504は、APU25 08とAPU2510によるアクセス用ソース・サンド ボックスとしてサンドボックス2520を指定する。ス テップ2618で、PU2504は、APU2510に 【0103】しかし、このような処理を効率的に実行す 30 よるアクセス用宛先サンドボックスとしてサンドボック ス2522を指定する。ステップ2620で、PU25 04は、APU2508とAPU2512によるアクセ ス用ソース・サンドボックスとしてサンドボックス25 24を指定する。ステップ2622で、PU2504 は、APU2512によるアクセス用宛先サンドボック スとしてサンドボックス2526を指定する。ステップ 2624で、APU2510とAPU2512とは、そ れぞれ、ソース・サンドボックス2520とソース・サ ンドボックス2524の範囲内のメモリ・ブロックへ同 40 期読取りコマンドを送り、これらのメモリ・ブロックを ブロッキング状態に設定する。最後に、処理はステップ 2628へ移り、そこで、専用バイブラインの設定が完 了し、パイプ・ライン専用のリソースが予約される。と のようにして、APU2508、2510、2512お よびそれらと関連するサンドボックス2520、252 2. 2524および2526は予約状態に入る。 【0106】図45に、との専用パイプラインによるス トリーミングMPEGデータの処理ステップを例示す る。ステップ2630で、APU2508は、ネットワ

の中で、TCP/IPデータ・パケットをネットワーク 104から受信する。ステップ2632で、APU25 ① 8は、これらのTCP/IPデータ・パケットを処理 し、これらのパケット内のデータをアセンブルし、ソフ トウェア・セル102の中へ入れる。ステップ2634 で、APU2508はソフトウェア・セルのヘッダ23 20(図23)をチェックし、セルがMPEGデータを含 むかどうかの判定を行う。セルがMPEGデータを含ま ない場合、ステップ2636で、APU2508は、専 用パイプライン内に含まれない他のAPUによって他の「16」の専用となる。例えば、ソース・サンドボックス270 データを処理するために、DRAM2518内に指定さ れる汎用サンドボックスへそのセルを伝送する。またA PU2508はこの伝送についてPU2504に通知す

【0107】一方、ソフトウェア・セルがMPEGデー タを含む場合、ステップ2638で、APU2508は そのセルの前のセルの [D2330(図23)をチェック し、そのセルが属するMPEGデータ・ストリームを識 別する。ステップ2640で、APU2508はセルの 処理用の専用バイプラインのAPUを選択する。との場 20 台、APU2508は、これらのデータを処理するAP U2510を選択する。この選択は前回のセルID23 30とロード・バランシング・ファクタ(負荷平衡係 数)とに基づく。例えば、そのソフトウェア・セルが属 するMPEGデータ・ストリームの前回のソフトウェア - セルが処理用としてAPU2510へ送られたことが 前のセル!D2330によって示されている場合、現在 のソフトウェア・セルも通常の処理用としてAPU25 10へ送られる。ステップ2642で、APU2508 は、サンドボックス2520へMPEGデータを書き込 30 む問期書き込みコマンドを出す。このサンドボックスは 予めプロッキング状態に設定されているので、ステップ 2644で、MPEGデータは、サンドボックス252 ①からAPU2510のローカル・ストレージへ自動的 に読み出される。ステップ2646で、APU2510 はそのローカル・ストレージでMPEGデータを処理し てビデオ・データを生成する。ステップ2648で、A PU2510はサンドボックス2522ヘビデオ・デー タを書き込む。ステップ2650で、APU2510は サンドボックス2520へ同期譲取りコマンドを出し、 とのサンドボックスに追加MPEGデータの受信を準備 させる。ステップ2652で、APU2510は常駐終 了処理を行う。この処理によってこのAPUは予約状態 に入り、この予約状態の間APUは、MPEGデータ・ ストリームの中で追加MPEGデータの処理を行うべく 待機する。

【() 1() 8 】他のタイプのデータ処理用として1グルー プのAPUおよびそれらと関連するサンドボックス間で その他の専用構造の設定が可能である。例えば、図46 に示すように、APUの専用グループ(APU270)

2. 27() 8. 2714など)を設定し、3次元オブジ ュクトに対して幾何学的変換を実行して2次元ディスプ レイ・リストの生成を行うことが可能となる。これらの 2次元ディスプレイ・リストを他のAPUによってさら に処理(レンダー) し画素データの生成を行うようにす るととが可能である。この処理を実行するために、3次 元オブジェクトと、これらのオブジェクト処理から結果 として生じるディスプレイ・リストの格納用として、サ ンドボックスが、APU2702、2708、2414 4. 2710. 2716は、それぞれ、APU270 2. APU2708、APU2714によって処理され た3次元オブジェクトの格納専用となる。同様に、宛先 サンドボックス2706, 2712, 2718は、それ それ、APU2702、APU2708、APU271 4によるこれらの3次元オブジェクトの処理から結果と して生じるディスプレイ・リストの絡納専用となる。 【0109】調整用APU2720は、そのローカル・ ストレージにおける、宛先サンドボックス2706、2 712、2718からのディスプレイ・リストの受信事 用である。APU2720は、これらのディスプレイ・ リスト間での調整を行い、 画素データのレンダリングの ためにこれらのディスプレイ・リストを他のAPUへ送

【① 1 1 0 】システム 1 0 1 のプロセッサは絶対タイマ ーも使用する。この絶対タイマーはAPUとPEの他の エレメントヘクロック信号を出力する。このクロック信 号はこれらのエレメントを駆動するクロック信号に依存 せず、かつ、とのクロック信号より高速である。との絶 対タイマーの利用が図28に例示されている。

【1)111】との図に示すように、との絶対タイマーに よってAPUによるタスク・パフォーマンスのためのタ イム・バジェット(割り当て時間)が決定される。この タイム・バジェットによって、これらのタスクの完了時 間が設定されるが、この時間はAPUによるタスク処理 に必要な時間より長い時間になる。その結果、各タスク について、タイム・バジェットの範囲内に、ビジーな時 間とスタンバイ時間とが存在することになる。すべての アプレットは、APUの実際の処理時間にかかわらず、 - このタイム・バジェットに基づいて処理を行うように書 かれる。

【0 1 1 2 ] 例えば、PEの特定のAPU用として、タ イム・バジェット2804のビジー時間2802中に特 定のタスクを行うことができる。ビジー時間2802が タイム・バジェット2804未満であるため、スタンバ **イ時間2806がタイム・バジェット中に生じる。この** スタンバイ時間中、APUは、APUが消費するパワー が少なくなるスリーブモードに入る。

【0113】タイム・バジェット2804が満了するま 50 でまで、他のAPUまたはPEの他のエレメントがタス

ク処理の結果を予想することはない。 したがって、AP Uの実際の処理速度にかかわらず、絶対タイマーによっ で決定されるタイム・バジェットを用いてAPUの処理 結果が鴬時調整される。

【①114】符来、APUによる処理速度はさらに高速 になる。しかし、絶対タイマーによって設定されるタイ ム・バジェットは同じままである。例えば、図2.8に示 すように、将来のAPUは、さらに短時間でタスクを実 行することになり、したがって、スタンバイ時間はさら に長くなるであろう。したがって、ビジー時間2808 10 に別の組合せを例示する図である。 はビジー時間2802より短くなり、スタンバイ時間2 810はスタンバイ時間2806より長くなる。しか し、絶対タイマーによって設定された同じタイム・バジ ェットに基づいて処理を行うようにプログラムが書かれ ているので、APU間での処理結果の調整が維持され る。その結果、さらに高速のAPUが、その処理の結果 が予想される時点でコンプリクトを生じることなく、低 速のAPU用として書かれたプログラムの処理を行うと とが可能となる。

【10115】動作速度の向上や動作速度が異なることに 20 示する図である。 起因するAPUの並列処理の調整問題に対しては、AP U間での調整を決定する絶対タイマーに代えて、PUま たは1以上の指定APUにおいて、APUが実行してい る特定の命令(マイクロコード)の分析をアプレットの処 理時に行うようにすることもできる。"オペレーション なし"("NOOP")命令を命令の中へ挿入し、APU のいくつかによってこの命令を実行して、アプレットに よって予想されるAPUによる処理を1ステップずつ適 切に行うことが可能となる。命令の中へこれらのNOO 実行を行うための正しいタイミングの維持が可能とな

【①116】以上特定の実施形態に関して本明細書で本 発明について説明したが、これらの実施形態は本発明の 原理と適用を示す単に例示的なものであると理解すべき である。したがって、添付の請求項によって画定されて いるような本発明の精神と範囲から追脱することなく、 以上の例示の実施形態に対して多数の改変を行うことが 可能であり、また、他の構成を考案することが可能であ る。

#### 【図面の簡単な説明】

【図1】 本発明によるコンピュータ・ネットワークの アーキテクチャ全体を例示する。

【図2】 本発明によるプロセッサ・エレメント(PE) の構造を例示する図である。

【図3】 本発明による広帯域エンジン(BE)の構造を 例示する図である。

【図4】 本発明による付加処理コニット(APU)の構 造を例示する図である。

【図5】 本発明によるプロセッサ・エレメントと、ビ「50 【図29】 本発明によるデータ同期オペレーションを

ジェアライザ(VS)と、光インターフェースとの構造を 例示する図である。

【図6】 本発明によるプロセッサ・エレメントの1つ の組合せを例示する図である。

【図?】 本発明によるプロセッサ・エレメントの別の 組合せを例示する図である。

【図8】 本発明によるプロセッサ・エレメントのさら に別の組合せを例示する図である。

【図9】 本発明によるプロセッサ・エレメントのさら

【図10】 本発明によるプロセッサ・エレメントのさ ちに別の組合せを例示する図である。

【図11】 本発明によるチップ・バッケージ内での光 インターフェースの統合化を例示する図である。

【図12】 図11の光インターフェースを用いるプロ セッサの1つの構成を示す図である。

【図13】 図11の光インターフェースを用いるプロ セッサの別の構成を示す図である。

【図14】 本発明によるメモリ・システムの構造を例

【図15】 本発明による第1の広帯域エンジンから第 2の広帯域エンジンへのデータの書き込みを例示する図 である。

【図16】 本発明によるプロセッサ・エレメントため の共用メモリの構造を示す図である。

【図17】 図16に示すメモリ・バンク用の1つの機 造を例示する図である。

【図18】 図16に示すメモリ・バンク用の別の構造 を例示する図である。

Pを挿入するととにより、すべての命令のAPUによる 30 【図19】 本発明によるDMACのための構造を例示 する図である。

> 【図20】 本発明によるDMACのための代替の構造 を例示する図である。

> 【図21】 本発明によるデータ同期オペレーションを 例示する図である。

> 【図22】 本発明によるデータ同期オペレーションを 例示する図である。

> 【図23】 本発明によるデータ同期オペレーションを 例示する図である。

40 【図24】 本発明によるデータ同期オペレーションを 例示する図である。

【図25】 本発明によるデータ間期オペレーションを 例示する図である。

【図26】 本発明によるデータ同期オペレーションを 例示する図である。

【図27】 本発明によるデータ同期オペレーションを 例示する図である。

【図28】 本発明によるデータ同期オペレーションを 例示する図である。

```
特關2002-342165
                           (23)
             43
                                      クライアント
                               106
例示する図である。
                                      サーバーコンピュータ
【図30】 本発明によるデータ同期オペレーションを
                               108
                                      光インターフェース
例示する図である。
                               1104
【図31】 本発明によるデータ同期オペレーションを
                               1108
                                      バス
                               1118
                                      *--1
例示する図である。
                                      ボート
【図32】 本発明によるデータ同期オペレーションを
                               1122
                                      光導波路
                               1126
例示する図である。
                                      光インターフェース
【図33】 本発明によるデータ同期オペレーションを
                               1160
                                      光インターフェース
例示する図である。
                               1162
【図34】 本発明によるデータ同期オペレーションを 10
                              1164
                                      光インターフェース
                               1166
                                      光インターフェース
例示する図である。
【図35】 本発明によるデータ同期オペレーションを
                                      光インターフェース
                               1182
                                      光インターフェース
例示する図である。
                               1184
【図36】 本発明のデータ同期方式によるメモリ・ロ
                                      光インターフェース
                               1186
ケーションの様々な状態を例示する3つの状態のメモリ
                               1188
                                      光インターフェース
図である。
                               1188
                                      光インターフェース
                               1190
                                      光インターフェース
【図37】 本発明によるハードウェア・サンドボック
                                      光インターフェース
ス用のキー管理テーブルの構造を例示する図である。
                               1190
                                      コントロール
【図38】 本発明によるハードウェア・サンドボック
                               1206
                                      ユニット
ス用メモリ・アクセス・キーの格納方式を例示する図で 20 1212
                                      クロスバ交換機
ある。
                               1221
【図39】 本発明によるハードウェア・サンドボック
                               1232
                                      外部ポート
                               1234
                                      コントロール
ス用メモリ・アクセス管理テーブルの構造を例示する図
                                      ユニット
                               1240
である。
                                      コントロール
【図40】 図37のキー管理テーブルと図39のメモ
                               1242
                                      バンク
リ・アクセス管理テーブルとを用いてメモリ・サンドボ
                               1244
                                      ブロック
ックスにアクセスするステップを示すフロー・チャート
                               1406
である。
                               1414
                                      バンク
【図41】 本発明によるソフトウェア・セルの構造を
                               1416
                                      バンク
                            30 1504
                                      ノード
例示する図である。
【図42】 本発明による、APUへ遠隔処理命令を出
                                      バス
                               1607
                               1608
                                      バス
ずステップを示すフロー・チャートである。
【図43】 本発明による。ストリーミング・データ処
                               1722
                                      制御回路
弾用専用バイブラインの構造を例示する図である。
                               1724
                                      制御論理回路
【図44】 本発明によるストリーミング・データの処
                               1726
                                      ストレージ
                               1728
                                      ロケーション
理時の図43の専用バイプラインによって実行されるス
                                      セグメント
                               1729
テップを示すプロー・チャートである。
【図45】 本発明によるストリーミング・データの処
                               1731
                                      ロケーション
                               1732
                                      ロケーション
理時の図43の専用バイブラインによって実行されるス
テップを示すフロー・チャートである。
                            40 1742
                                      制御論選回路
【図46】 本発明によるストリーミング・データ処理
                               1746
                                      ロケーション
用の専用バイブラインの他の構造を例示する図である。
                               1750
                                      ロケーション
                                      セグメント
【図47】 本発明によるAPUによるアプリケーショ
                               1752
                                      セグメント
ンとデータの並列処理を調整するための絶対タイマー方
                               1760
                               1762
                                      セグメント
式を例示する図である。
                                      エンプティ状態
【符号の説明】
                               1880
       システム
                               1882
                                      フル状態
1.0.1
                               1884
                                      ブロッキング状態
1010
       *~
                               1902
                                      キー管理テーブル
102
       セル
       ネットワーク
                            50 1906
                                      ----
104
```

|      |            | (24)   | 特關2002-342165     |
|------|------------|--------|-------------------|
|      | 45         |        | 46                |
| 1908 | マスク        | *2524  | サンドボックス           |
| 2006 | 格納位置       | 2526   | サンドボックス           |
| 2008 | セグメント      | 2704   | サンドボックス           |
| 2010 | セグメント      | 2706   | 宛先サンドボックス         |
| 2012 | <b>÷</b> ∽ | 3 0 1  | 広帯域エンジン           |
| 2102 | アクセス管理テーブル | 3 1 1  | バス                |
| 2106 | アドレス       | 313    | 広帯域メモリ接続部         |
| 2110 | <b>+</b>   | 317    | インターフェース          |
| 2110 | キーマスク      | 319    | 外部バス              |
| 223  | バス         | 10 406 | メモリ               |
| 227  | 高帯域メモリ接続部  | 408    | 内部バス              |
| 2302 | 也儿         | 410    | レジスタ              |
| 2308 | ヘッダ        | 412    | 浮動小数点演算ユニット       |
| 2320 | ヘッダ        | 414    | 整数演算ユニット          |
| 2322 | インターフェース   | 420    | バス                |
| 2332 | 実行セクション    | 506    | バッケージの中に光インターフェース |
| 2334 | リスト        | 508    | エンジン              |
| 2520 | サンドボックス    | 510    | 画像用キャッシュ          |
| 2522 | サンドボックス    | *      |                   |

[図]]



[212]



(25) 特開2002-342165





(26)

特關2002-342165





[205]



[図13]



[図17]



(27)







[図18]



特開2002-342165

(28)





(29) 特關2002-342165

[図11]





特闘2002-342165

(30)

[図15]



[図16]



(31) 特關2002-342165





[M21]



[M22]



(32)

[図23]



[図24]



[図25]



(33)

[图26]



## [**27**]



## [図28]



(34)

[図29]



## [図30]



[図31]



特闘2002-342165

(35)

[図32]



[233]



[234]



特開2002-342165

(36)





[図38]



特閱2002-342165

(37)





[図41] 2326 . 2308 2310 ヘッダ 2324 2326 2328 2329 2330 あまなめし(村均がおユニット) 寂无 lD 2312 ンドボックス・サイズ 2334 2322 セル・インターフェース ソースロ ルート選定情報 セクション 歩客 (D 474 2340 2350 ONADYンド **みじプログラム** 2355. 2958. 2398 本株物 2380 47570704 2336 JP/51 2382 APU7ログラム / 2302 ソフトウェア・セル



(39)

[図43]





特開2002-342165

(40)

### [図46]



フロントページの続き

#### (72)発明者 山崎 剛

アメリカ合衆国、カリフォルニア州 94404-2175、フォスター シティー、セ カンド フロア、イースト ヒルスデイル ブルバード 919 ソニー コンピュー タエンタテインメント アメリカ、イン ク・内 Fターム(参考) 58017 AA01 BA02 CA15 58045 8828 CG08 CG11